雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

本文作者： AI研習(xí)社

2017-06-27 16:00

導(dǎo)語(yǔ)：關(guān)于CNN（卷積神經(jīng)網(wǎng)絡(luò)）的雜談。

雷鋒網(wǎng)按：本文作者達(dá)聞西，原載于作者知乎專(zhuān)欄，雷鋒網(wǎng)經(jīng)授權(quán)發(fā)布。

機(jī)器學(xué)習(xí)和優(yōu)化問(wèn)題

很多機(jī)器學(xué)習(xí)方法可以歸結(jié)為優(yōu)化問(wèn)題，對(duì)于一個(gè)參數(shù)模型，比如神經(jīng)網(wǎng)絡(luò)，用 y=f(x;θ) 來(lái)表示的話，訓(xùn)練模型其實(shí)就是下面的參數(shù)優(yōu)化問(wèn)題：

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

其中 L 是loss function，比如神經(jīng)網(wǎng)絡(luò)中分類(lèi)常用的 cross-entropy。

CNN學(xué)到了什么？

特征（Representation）。把原始圖像看做一個(gè)維度是像素×通道的向量，經(jīng)過(guò)各種復(fù)雜的CNN結(jié)構(gòu)，其實(shí)只不過(guò)成了另一個(gè)向量。這個(gè)向量所在的空間也許有更好的線性可分性，也許是相似樣本的“距離”更近，原始的數(shù)據(jù)經(jīng)過(guò)變換到了這里之后，就是特征。

可視化CNN

那么有個(gè)問(wèn)題來(lái)了，如何可視化一個(gè)CNN結(jié)構(gòu)學(xué)到的特征呢？答案有很多，其中一種就是本文的主題：不再通過(guò)優(yōu)化求解網(wǎng)絡(luò)的參數(shù)，而是求解輸入圖像。

優(yōu)化網(wǎng)絡(luò)的輸入，是相對(duì)于“正統(tǒng)”的機(jī)器學(xué)習(xí)優(yōu)化參數(shù)而言的。當(dāng)一個(gè)CNN訓(xùn)練完全后，我們可以固定好參數(shù)，把輸入作為可訓(xùn)練的量，根據(jù)目的給定一個(gè)新的目標(biāo)函數(shù)。

把這種方法最早用在深度學(xué)習(xí)里大概是Bengio組在2009年的一個(gè)Tech report：《Visualizing Higher-Layer Features of a Deep Network》。文章里提出了下面的優(yōu)化問(wèn)題

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

其中 h_ij代表第j層中的第i個(gè)神經(jīng)元的響應(yīng)。很直觀的，這是要尋找什么樣的圖像可以最大程度地激活這個(gè)神經(jīng)元，這種方法就叫做 activation maximization。利用這種辦法，原文中得到了類(lèi)似下面的可視化，從左至右依次是一個(gè)DBN中從低到高的三層：

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

也許很多人一提起特征可視化首先想到的是可視化特征圖或是直接把卷積核畫(huà)出來(lái)，就像 Caffe 的 Tutorial（Image Classification and Filter Visualization，地址：http://t.cn/RqAEsPq）中一樣。這樣的可視化其實(shí)是很不直觀的，尤其是卷積核的可視化，第一層之后的卷積核到底學(xué)到了什么內(nèi)容只能靠腦補(bǔ)?；谶@個(gè)思路，Cornell的Jason Yosinski把公式改了改

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

其實(shí)就是Regularization項(xiàng)R(x)放到了目標(biāo)函數(shù)里。然后他把這種可視化作為功能之一，基于Caffe制作了一個(gè)年久失修的用于CNN可視化的工具包：yosinski/deep-visualization-toolbox（地址：http://t.cn/R2rXWi3）。用在AlexNet上的效果是下面樣子：

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

注意到這個(gè)可視化結(jié)果還考慮到了感受野，也就是實(shí)際優(yōu)化的目標(biāo)是響應(yīng)圖中心的點(diǎn)，所以越高層的可視化圖像越大。

直接把某一類(lèi)別的分?jǐn)?shù)作為優(yōu)化值可以得到關(guān)于該類(lèi)別更直觀的可視化結(jié)果，比如下圖是這個(gè)工具包對(duì)幾個(gè)類(lèi)別的可視化：

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

每個(gè)類(lèi)別學(xué)到的視覺(jué)上的特征一目了然。另外注意到這種方法因?yàn)槭腔趦?yōu)化，所以每次優(yōu)化的結(jié)果會(huì)有不同。

借助這種可視化，我們能夠分析出網(wǎng)絡(luò)是不是真的學(xué)習(xí)到了我們希望其所學(xué)的特征，比如Google的Research Blog中提到過(guò)啞鈴的例子：

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

可視化的類(lèi)別是啞鈴，可是結(jié)果里包含了一些我們不希望出現(xiàn)的元素：胳膊。這是因?yàn)橛糜谟?xùn)練的啞鈴圖片中，大都有握著啞鈴的胳膊。

可視化網(wǎng)絡(luò)的方法有很多，以簡(jiǎn)單粗暴為最大特點(diǎn)的大概只是activation maximization。

對(duì)抗樣本（Adversarial Examples）

對(duì)抗樣本也是機(jī)器學(xué)習(xí)中的一種常用概念，通常指人為制造的，讓一個(gè)機(jī)器學(xué)習(xí)模型發(fā)生錯(cuò)誤的樣本。Anh Nguyen的論文《Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images》中有個(gè)比較形象的示意：

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

要理解這個(gè)圖，還要提一句機(jī)器學(xué)習(xí)的一個(gè)基本問(wèn)題：學(xué)習(xí)數(shù)據(jù)的分布。具體到方法就是從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí)，如果學(xué)習(xí)成功，則可以泛化到所有數(shù)據(jù)，包含沒(méi)見(jiàn)過(guò)的測(cè)試數(shù)據(jù)?；氐竭@個(gè)圖，數(shù)據(jù)的分布就是最上邊那三坨。一種造對(duì)抗樣本的方法就是從一個(gè)類(lèi)別的樣本出發(fā)，做一些小修改，讓模型將修改后的樣本判斷為另一個(gè)類(lèi)別，而實(shí)際上（或是人的，顯然的判斷）該樣本仍為原來(lái)類(lèi)別，這就是圖中從藍(lán)色原點(diǎn)到白色小方塊的方法。

當(dāng)然更容易的方法是利用分類(lèi)邊界的不可確定性。比如上圖中除了最上面部分的空間可以認(rèn)為是數(shù)據(jù)存在概率極低的區(qū)域，從實(shí)際應(yīng)用的角度甚至可以認(rèn)為是我們完全不關(guān)心的區(qū)域。因?yàn)樗惴▽W(xué)習(xí)的樣本只有實(shí)心的小圓點(diǎn)，所以遠(yuǎn)離小圓點(diǎn)的部分，分類(lèi)邊界是難以控制的。在這里面很容易輕松取到算法高概率認(rèn)為是一個(gè)類(lèi)別的樣本，而實(shí)際上卻難以辨認(rèn)的對(duì)抗性樣本。

所以大體來(lái)說(shuō)，對(duì)抗性樣本的存在是因?yàn)閿?shù)據(jù)維度通常過(guò)高，即使考慮所在的子區(qū)域，往往還是過(guò)高，對(duì)整個(gè)（數(shù)據(jù)分布的）空間的搜索是不可行的。在訓(xùn)練樣本沒(méi)有覆蓋的區(qū)域，無(wú)論該區(qū)域是否屬于數(shù)據(jù)分布所在的區(qū)域，無(wú)論模型的capacity夠不夠，都有出現(xiàn)對(duì)抗性樣本的可能。盡管深度學(xué)習(xí)中一直主張distributed representation已大幅優(yōu)于局部泛化，維度的詛咒仍是一個(gè)無(wú)法擺脫的難題。

具體到CNN，下邊這個(gè)例子可能不少人見(jiàn)過(guò)：

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

熊貓的圖片上加上一個(gè)人眼難以察覺(jué)的噪音，對(duì)于人眼而言看上去還是熊貓，可是對(duì)于一個(gè)CNN而言，右邊的圖片以99%高概率被判斷為了長(zhǎng)臂猿。上句話其實(shí)已經(jīng)很清楚地指出了得到右邊圖片的方法，還是一個(gè)優(yōu)化輸入圖像的問(wèn)題：加上一個(gè)盡量小的噪音，并通過(guò)優(yōu)化這個(gè)噪音，讓優(yōu)化后的圖像具有另一個(gè)類(lèi)別的高概率：

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

其中n是要求的噪音，α 是相應(yīng)的系數(shù)，L是x+n屬于某個(gè)類(lèi)別的loss，c是某個(gè)錯(cuò)誤類(lèi)別的標(biāo)簽。這大概是基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)中第一個(gè)討論造對(duì)抗樣本的方法，見(jiàn)于Christian Szegedy的論文《Intriguing properties of neural networks》。同樣是在這篇論文中，Christian描述了一個(gè)比較令人擔(dān)憂的發(fā)現(xiàn)：就是這種樣本居然可以泛化，同一個(gè)對(duì)抗樣本，對(duì)于不同的CNN結(jié)構(gòu)，在不同數(shù)據(jù)子集下訓(xùn)練的模型，是可以達(dá)到一定程度的“通用”性的。也就是說(shuō)對(duì)于一些涉及到安全的應(yīng)用，攻擊者即使不知道部署的模型是什么，通過(guò)某種手段猜測(cè)數(shù)據(jù)的分布，也是可以得到有效的攻擊樣本的。

語(yǔ)義信息和高層神經(jīng)元

對(duì)于CNN，有個(gè)很基礎(chǔ)的認(rèn)識(shí)：低層的部分學(xué)習(xí)紋理等簡(jiǎn)單信息，高層部分學(xué)習(xí)語(yǔ)義信息。在《Intriguing properties of neural networks》中的另一個(gè)發(fā)現(xiàn)是，CNN中表示高層學(xué)習(xí)到的語(yǔ)義信息的，并不是某一個(gè)神經(jīng)元，而是高層神經(jīng)元構(gòu)成的空間。這個(gè)看上去有些顯然的結(jié)論的一種佐證方式又是對(duì)輸入圖像進(jìn)行優(yōu)化：

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

其中 Φ(x) 是神經(jīng)元激活值對(duì)應(yīng)的向量，v是一個(gè)隨機(jī)向量。另外這和前邊的優(yōu)化有些許不同，x的取值范圍限定在已有的圖片集里。其實(shí)就是在某個(gè)高層響應(yīng)的空間里，沿著某個(gè)方向挑選了一些該方向上值最大的圖片。最后的結(jié)論是，無(wú)論是沿著某個(gè)隨機(jī)方向找到的圖片，還是以某一個(gè)神經(jīng)元響應(yīng)最大找到的圖片，都能看出一些語(yǔ)義上的共性，比如下圖：

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

黑線以上是最大化某個(gè)神經(jīng)元響應(yīng)的樣本，共性挺明顯，黑線以下是最大化某層特征空間中某個(gè)方向響應(yīng)的樣本，共性也挺明顯。

Deep Dream

很多人小時(shí)候都有這樣的經(jīng)歷：抬頭看天空的云彩，或是觀察地面的紋路，甚至是凝視廁所里臟兮兮的墻面，這時(shí)候看到的卻是各種機(jī)器人大戰(zhàn)，武打畫(huà)面，或是動(dòng)畫(huà)片中的人物和故事。

Deep Dream和這很像，輸入任何一幅圖像，都會(huì)得到在不同層的響應(yīng)，前面已經(jīng)提到過(guò)，低層的響應(yīng)是紋理和細(xì)節(jié)的相應(yīng)，高層的響應(yīng)是語(yǔ)義信息的響應(yīng)。所以Deep Dream的思想是：

對(duì)于某個(gè)高層的得到的語(yǔ)義信息響應(yīng)，加強(qiáng)這些信息。這相當(dāng)于讓網(wǎng)絡(luò)自己決定從輸入圖像中“看到”了什么，并把“看到”的東西加強(qiáng)，所以又是一個(gè)優(yōu)化問(wèn)題。

要優(yōu)化的目標(biāo)，就是最大化輸入圖像在某個(gè)高層已有的響應(yīng)，優(yōu)化的初始值就是輸入圖像，當(dāng)然還有一些其他項(xiàng)，比如不同的包含不同尺度，或是抑制梯度及高頻成分的約束，這些是否加上視情況而定。這并不是一個(gè)典型的優(yōu)化問(wèn)題，反而更像是一個(gè)單純的梯度下降問(wèn)題，所以梯度下降通常也不會(huì)進(jìn)行到底，而是進(jìn)行若干步直到輸入圖像中出現(xiàn)一個(gè)“夢(mèng)境”。下面是TensorFlow的官方tutorial里，Inception模型在一幅圖片上生成的夢(mèng)境：

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

基于Inception的DeepDream有個(gè)特點(diǎn)，就是夢(mèng)境里的狗很多，就像上面這幅圖一樣。

在電影《Inception》里，夢(mèng)境是可以操控的，DeepDream也可以，按照可視化中的思路，把優(yōu)化目標(biāo)換成某一層響應(yīng)圖中的某個(gè)channel，這就是一個(gè)傳統(tǒng)的優(yōu)化問(wèn)題了：

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

和第一部分中的差別在于初始化的是一幅圖像，并且優(yōu)化不會(huì)進(jìn)行到底。比如一個(gè)對(duì)花朵一樣圖案敏感的channel，對(duì)應(yīng)的夢(mèng)境里畫(huà)面中就會(huì)開(kāi)滿了花：

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

其實(shí)那些隱藏在白云里和墻上的圖案，長(zhǎng)大后也是能看到的，只不過(guò)大多數(shù)人不看了。

Neural Art/Style

2016年，如果要評(píng)選一款和神經(jīng)網(wǎng)絡(luò)相關(guān)的最火爆的APP，一定非Prisma莫屬。其背后的算法，也是對(duì)輸入圖像的優(yōu)化。關(guān)于神經(jīng)網(wǎng)絡(luò)的藝術(shù)風(fēng)格學(xué)習(xí)，首先要追溯到更早的一篇利用優(yōu)化輸入方法的論文《Understanding Deep Image Representations by Inverting Them》，里面討論的問(wèn)題之一是通過(guò)優(yōu)化算法和神經(jīng)網(wǎng)絡(luò)中的特征重建一幅圖像：

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

其中Φ₀是某幅圖像在網(wǎng)絡(luò)中的特征，這個(gè)特征可以是部分層的響應(yīng)，或者全部的響應(yīng)。如果Φ₀取低層的特征，那么細(xì)節(jié)的還原度就會(huì)很好，如果Φ₀是高層的特征，則畫(huà)面中的紋理和細(xì)節(jié)會(huì)丟失很多信息。比如下面的圖像：

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

用Vgg16模型執(zhí)行一遍前向計(jì)算，然后分別取relu1~relu5的特征作為 Φ₀，重建的結(jié)果如下：

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

在基于神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格藝術(shù)化中，通常的輸入是一幅原始圖像，經(jīng)過(guò)處理具有了其他畫(huà)面，比如一幅油畫(huà)的藝術(shù)風(fēng)格。所以是原始圖像的內(nèi)容+其他圖像的風(fēng)格，那么上面討論的部分就是內(nèi)容的重建，所以接下來(lái)要討論的是風(fēng)格的重建。

圖像風(fēng)格其實(shí)是個(gè)很難定義的東西，不過(guò)在神經(jīng)網(wǎng)絡(luò)中，談到風(fēng)格，一般指的是紋理。紋理的特點(diǎn)是什么呢？又是一個(gè)很難定義的東西……不過(guò)紋理有個(gè)特點(diǎn)是和所在位置無(wú)關(guān)，基于這個(gè)特點(diǎn)，只要是和位置無(wú)關(guān)的統(tǒng)計(jì)信息，都可以試著來(lái)表示紋理的特征，Gram矩陣，就是在CNN中表示這種特征辦法的一種：

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

其中 G^l代表第 l 層響應(yīng)圖對(duì)應(yīng)的Gram矩陣，F(xiàn)_i^l代表該層第 i 個(gè)卷積核對(duì)應(yīng)的響應(yīng)圖。通常一個(gè)響應(yīng)圖是二維的，這里把響應(yīng)圖展開(kāi)為一個(gè)一維向量，其中 F_ik^l代表該層第i個(gè)響應(yīng)圖的第k個(gè)元素。所以Gram矩陣的每一個(gè)元素就是求了個(gè)內(nèi)積，把兩個(gè)響應(yīng)圖之間，和位置無(wú)關(guān)的一種相關(guān)性給求了出來(lái)。

接下來(lái)的套路就和上一小節(jié)一樣了，把每層Gram矩陣作為特征，讓重建圖像的Gram矩陣盡量接近原圖的Gram矩陣，也是個(gè)優(yōu)化問(wèn)題：

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

其中E_l是每一層的loss，w_l是該層loss的權(quán)重。E_l的形式是考慮到每層響應(yīng)圖大小后的Gram矩陣差異：

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

同樣是用Vgg16，用不同層的特征，對(duì)梵高的星空進(jìn)行風(fēng)格重建，結(jié)果如下：

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像

至于Gram矩陣為什么能作為重建風(fēng)格的依據(jù)，論文《Demystifying Neural Style Transfer》（感謝 @Lyken 在評(píng)論中的分享）中給出了一個(gè)思路，是一個(gè)不錯(cuò)的參考。比起原文中相關(guān)性的解釋?zhuān)@篇論文更進(jìn)一步把Gram矩陣轉(zhuǎn)化成了squared Maximum Mean Discrepancy，這直接把圖像和CNN中響應(yīng)的分布聯(lián)系了起來(lái)，并且可以通過(guò)替換計(jì)算MMD的方式嘗試其他風(fēng)格重建的目標(biāo)計(jì)算方式。

總之，重建內(nèi)容和風(fēng)格的方法都已有，接下來(lái)就很自然了，把某個(gè)較高層的特征作為內(nèi)容重建的目標(biāo)，同時(shí)把每層響應(yīng)的Gram矩陣以某個(gè)比例求和作為風(fēng)格的重建目標(biāo)，對(duì)輸入圖像進(jìn)行優(yōu)化：

雜談CNN：如何通過(guò)優(yōu)化求解輸入圖像