丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

直觀理解深度學(xué)習(xí)卷積部分

本文作者: AI研習(xí)社-譯站 2018-07-19 09:50
導(dǎo)語(yǔ):在本文中,我們將逐步分解卷積操作的原理,將他與標(biāo)準(zhǔn)的全連接網(wǎng)絡(luò)聯(lián)系起來(lái),并且探索如何構(gòu)建一個(gè)強(qiáng)大的視覺層次,使其成為高性能的圖像特征提取器。

雷鋒網(wǎng)按:本文為雷鋒字幕組編譯的技術(shù)博客,原標(biāo)題 Intuitively Understanding Convolutions for Deep Learning,作者為 Irhum Shafkat。

翻譯 | 于志鵬  趙朋飛       校對(duì) |  翟修川       整理 |  凡江

直觀理解深度學(xué)習(xí)卷積部分近幾年隨著功能強(qiáng)大的深度學(xué)習(xí)框架的出現(xiàn),在深度學(xué)習(xí)模型中搭建卷積神經(jīng)網(wǎng)絡(luò)變得十分容易,甚至只需要一行代碼就可以完成。

但是理解卷積,特別是對(duì)第一次接觸卷積神經(jīng)網(wǎng)絡(luò)的人來(lái)說(shuō),經(jīng)常會(huì)對(duì)諸如卷積核、濾波器、通道等概念和他們的堆疊架構(gòu)感到困惑。然而卷積是強(qiáng)大且高度可擴(kuò)展的概念,在本文中,我們將逐步分解卷積操作的原理,將他與標(biāo)準(zhǔn)的全連接網(wǎng)絡(luò)聯(lián)系起來(lái),并且探索如何構(gòu)建一個(gè)強(qiáng)大的視覺層次,使其成為高性能的圖像特征提取器。

2 維卷積:操作

2 維卷積是一個(gè)相當(dāng)簡(jiǎn)單的操作:從卷積核開始,這是一個(gè)小的權(quán)值矩陣。這個(gè)卷積核在 2 維輸入數(shù)據(jù)上「滑動(dòng)」,對(duì)當(dāng)前輸入的部分元素進(jìn)行矩陣乘法,然后將結(jié)果匯為單個(gè)輸出像素。

直觀理解深度學(xué)習(xí)卷積部分

一個(gè)標(biāo)準(zhǔn)的卷積 [1]

卷積核重復(fù)這個(gè)過(guò)程知道遍歷了整張圖片,將一個(gè)二維矩陣轉(zhuǎn)換為另一個(gè)二維矩陣。輸出特征實(shí)質(zhì)上是在輸入數(shù)據(jù)相同位置上的加權(quán)和(權(quán)值是卷積核本身的值)

輸入數(shù)據(jù)是否落入這個(gè)「大致相似區(qū)域」,直接決定了數(shù)據(jù)經(jīng)過(guò)卷積核后的輸出。這意味著卷積核的尺寸直接決定了生成新的特征時(shí)匯合了多少(或幾個(gè))輸入特征。

這與全連接層完全相反。在上面的例子中,我們的輸入特征為 5*5=25,輸出數(shù)據(jù)為 3*3=9. 如果我們使用標(biāo)準(zhǔn)的全連接層,就會(huì)產(chǎn)生一個(gè) 25*9=225 個(gè)參數(shù)的權(quán)值矩陣,每個(gè)輸出都是所有輸入數(shù)據(jù)的加權(quán)求和。卷積操作允許我們只用 9 個(gè)參數(shù)來(lái)實(shí)現(xiàn)這個(gè)變換,每個(gè)輸出特性不用「查看」每個(gè)輸入特征,而是只是「查看」來(lái)自大致相同位置的輸入特征。請(qǐng)注意這一點(diǎn),因?yàn)檫@對(duì)我們后面的討論至關(guān)重要。

一些常用的技術(shù)

在我們繼續(xù)介紹卷積神經(jīng)網(wǎng)絡(luò)之前,介紹兩種卷積層中常用的技術(shù):Padding 和 Strides

  • Padding:如果你看到上面的動(dòng)畫,那么會(huì)注意到在卷積核滑動(dòng)的過(guò)程中,邊緣基本會(huì)被「裁剪」掉,將 5*5 特征矩陣轉(zhuǎn)換為 3*3 的特征矩陣。邊緣上的像素永遠(yuǎn)不在卷積核的中心,因?yàn)閮?nèi)核沒有任何東西可以擴(kuò)展到邊緣之外。這并不理想,因?yàn)槲覀兘?jīng)常希望輸出的尺寸等于輸入。

直觀理解深度學(xué)習(xí)卷積部分

一些 padding 操作 [1]

Padding 做了一些非常機(jī)智的辦法來(lái)解決這個(gè)問(wèn)題:用額外的「假」像素(通常值為 0,因此經(jīng)常使用的術(shù)語(yǔ)「零填充」)填充邊緣。這樣,在滑動(dòng)時(shí)的卷積核可以允許原始邊緣像素位于其中心,同時(shí)延伸到邊緣之外的假像素,從而產(chǎn)生與輸入相同大小的輸出。

  • Striding:運(yùn)行卷積層時(shí),我們通常希望輸出的尺寸是比輸入更低。這在卷積神經(jīng)網(wǎng)絡(luò)中是常見的,在增加信道數(shù)量的同時(shí)空間尺寸減小。其中一種方法是使用池化層(例如,取每 2×2 網(wǎng)格的平均值/最大值將空間維度減半)。還有一種方法是使用 Striding:

    直觀理解深度學(xué)習(xí)卷積部分

一個(gè)步長(zhǎng)為 2 的卷積操作 [1]

Stride 的想法是改變卷積核的移動(dòng)步長(zhǎng)跳過(guò)一些像素。Stride 是 1 表示卷積核滑過(guò)每一個(gè)相距是 1 的像素,是最基本的單步滑動(dòng),作為標(biāo)準(zhǔn)卷積模式。Stride 是 2 表示卷積核的移動(dòng)步長(zhǎng)是 2,跳過(guò)相鄰像素,圖像縮小為原來(lái)的 1/2。Stride 是 3 表示卷積核的移動(dòng)步長(zhǎng)是 3,跳過(guò) 2 個(gè)相鄰像素,圖像縮小為原來(lái)的 1/3

越來(lái)越多的新網(wǎng)絡(luò)結(jié)構(gòu),比如 ResNet,已經(jīng)完全拋棄了池化層。當(dāng)需要對(duì)圖像進(jìn)行縮小時(shí)會(huì)采用 Stride 方法。

多通道版本

當(dāng)然,上圖僅涉及具有單個(gè)輸入通道的圖像。實(shí)際上,大多數(shù)輸入圖像都是 3 通道的,通道數(shù)只會(huì)增加你的網(wǎng)絡(luò)深度。通常會(huì)將圖像的通道視作一個(gè)整體,強(qiáng)調(diào)其整體的一面而不關(guān)注各自的差異。

直觀理解深度學(xué)習(xí)卷積部分

大部分時(shí)候,我們都處理 RBG 的三通道圖像 (Credit: Andre Mouton)

直觀理解深度學(xué)習(xí)卷積部分

濾波器:卷積核的集合

這兩個(gè)術(shù)語(yǔ)之間有著本質(zhì)的區(qū)別:僅在 1 通道的情況下,濾波器和內(nèi)核這兩個(gè)術(shù)語(yǔ)等價(jià),在一般情況下,它們是不同的。每個(gè)過(guò)濾器實(shí)際上是卷積核的集合,圖層的每個(gè)輸入通道都有一個(gè)卷積核,并且是唯一的。

卷積層中的每個(gè)濾波器都只輸出一個(gè)通道,他們是這樣實(shí)現(xiàn)的:

濾波器的每個(gè)卷積核在各自的輸入通道上「滑動(dòng)」,產(chǎn)生各自的計(jì)算結(jié)果。一些內(nèi)核可能比其他內(nèi)核具有更大的權(quán)重,以便比某些內(nèi)核更強(qiáng)調(diào)某些輸入通道(例如,濾波器的紅色通道卷積核可能比其他通道的卷積核有更大的權(quán)重,因此,對(duì)紅色通道特征的反應(yīng)要強(qiáng)于其他通道)。

直觀理解深度學(xué)習(xí)卷積部分然后將每個(gè)通道處理的結(jié)果匯在一起形成一個(gè)通道。濾波器的卷積核各自產(chǎn)生一個(gè)對(duì)應(yīng)通道的輸出,最后整個(gè)濾波器產(chǎn)生一個(gè)總的輸出通道。

直觀理解深度學(xué)習(xí)卷積部分

最后一個(gè)術(shù)語(yǔ):偏置。偏置在這里的作用是對(duì)每個(gè)輸出濾波器增加偏置項(xiàng)以便產(chǎn)生最終輸出通道。

直觀理解深度學(xué)習(xí)卷積部分

其他數(shù)量濾波器的生成都和單濾波器相同:每個(gè)濾波器使用不同的卷積核集合和具有上述過(guò)程的標(biāo)量偏差項(xiàng)來(lái)處理輸入數(shù)據(jù),最終產(chǎn)生一個(gè)輸出通道。然后將它們連接在一起以產(chǎn)生總輸出,其中輸出通道的數(shù)量是過(guò)濾器的數(shù)量。在輸出數(shù)據(jù)送入另一個(gè)卷積層之前,通常還要應(yīng)用非線性激活函數(shù)。重復(fù)上述操作即可完成網(wǎng)絡(luò)的搭建。


2 維卷積:直覺

卷積仍然是線性變換

即使有了卷積層的機(jī)制,仍然很難將它與標(biāo)準(zhǔn)的前饋網(wǎng)絡(luò)聯(lián)系起來(lái),而且它仍然不能解釋為什么卷積會(huì)擴(kuò)展到圖像數(shù)據(jù)處理領(lǐng)域,并且在這方面表現(xiàn)的很好。

假設(shè)我們有一個(gè) 4×4 的輸入,我們需要將其轉(zhuǎn)換成 2×2 的陣列。如果我們使用前饋網(wǎng)絡(luò),我們會(huì)先將 4×4 的輸入轉(zhuǎn)換成長(zhǎng)度為 16 的向量,然后輸入一個(gè)擁有 16 個(gè)輸入和 4 個(gè)輸出的密集連接層。可以為這一層想象一個(gè)權(quán)值矩陣 W :

直觀理解深度學(xué)習(xí)卷積部分

總而言之,有 64 個(gè)參數(shù)。

盡管卷積核運(yùn)算一開始看起來(lái)很奇怪,但它仍然是一個(gè)線性變換,有一個(gè)等價(jià)的變換矩陣。如果我們將大小為 3 的核 K 應(yīng)用于變換后的 4×4 輸入,來(lái)得到 2×2 的輸出,等價(jià)的變換矩陣將是:

直觀理解深度學(xué)習(xí)卷積部分

這里有 9 個(gè)參數(shù)

(注意:雖然上面的矩陣是一個(gè)等價(jià)的變換矩陣,但實(shí)際操作通常是作為一個(gè)非常不同的矩陣乘法來(lái)實(shí)現(xiàn)的 [2])

卷積,作為一個(gè)整體,仍然是一個(gè)線性變換,但同時(shí),這也是一種與眾不同的變換。一個(gè)有 64 個(gè)元素的矩陣,只有 9 個(gè)參數(shù)被重復(fù)使用。每個(gè)輸出節(jié)點(diǎn)只能看到特定輸入的數(shù)量(核內(nèi)部的輸入)。與其他輸入沒有任何交互,因?yàn)闄?quán)值被設(shè)置為 0。

將卷積操作看作是權(quán)值矩陣的先驗(yàn)是很有用的。在這篇文章中,我預(yù)先定義了網(wǎng)絡(luò)參數(shù)。例如,當(dāng)你使用預(yù)先訓(xùn)練的模型做圖像分類時(shí),前提是使用預(yù)先訓(xùn)練的網(wǎng)絡(luò)參數(shù),作為密集鏈接層的一個(gè)特征提取器。

從這層意義上說(shuō),有一個(gè)直覺就是為什么兩個(gè)都很有效呢(與他們的替代者比較)。遷移學(xué)習(xí)的效率比隨機(jī)初始化高出多個(gè)數(shù)量級(jí),因?yàn)槟阒恍枰獌?yōu)化最終全連接層的參數(shù),這意味著您可以擁有出色的性能,每個(gè)類只有幾十個(gè)圖像。

這里,你不需要優(yōu)化所有 64 個(gè)參數(shù),因?yàn)槲覀儗⑵渲械拇蟛糠衷O(shè)置為 0(而且始終保持這個(gè)值),剩余的轉(zhuǎn)化成共享參數(shù),這將導(dǎo)致實(shí)際上只需要優(yōu)化 9 個(gè)參數(shù)。這個(gè)效率很重要,當(dāng)從 MNIST 的 784 個(gè)輸入轉(zhuǎn)換成實(shí)際的 224×224×3 個(gè)圖像時(shí),將會(huì)有 150000 個(gè)輸入。密集層視圖將輸入減半為 75000 個(gè),這仍然需要 100 億個(gè)參數(shù)。相比而言,ResNet-50 總共只有 2 千 500 萬(wàn)個(gè)參數(shù)。

所以,將一些參數(shù)固定為 0,邦定參數(shù)提高效率,但與遷移學(xué)習(xí)不同,在遷移學(xué)習(xí)中,我們知道先驗(yàn)是不是好的,因?yàn)樗蕾囉诖罅康膱D像,我們?nèi)绾沃肋@個(gè)的好壞呢?

答案就在特征組合中,前面的參數(shù)是要學(xué)習(xí)的參數(shù)。

局部性

在這片文章的開始,我們討論了以下問(wèn)題:

  • 卷積核只從一個(gè)小的局部區(qū)域組合像素來(lái)形成輸出。也就是說(shuō),輸出特性只從一個(gè)小的局部區(qū)域「看到」輸入特性。

  • 卷積核被應(yīng)用于整個(gè)圖像,以產(chǎn)生輸出矩陣。

所以隨著反向傳播從網(wǎng)絡(luò)的分類節(jié)點(diǎn)一路過(guò)來(lái),卷積核擁有一個(gè)有趣的任務(wù),從局部輸入中學(xué)習(xí)權(quán)值,生成特征。此外,因?yàn)榫矸e核本身被應(yīng)用于整個(gè)圖像,卷積核學(xué)習(xí)的特征必須足夠通用,可以來(lái)自于圖像的任何部分。

如果這是任何其他種類的數(shù)據(jù),例如,APP 安裝的分類數(shù)據(jù),這將會(huì)是一場(chǎng)災(zāi)難,因?yàn)槟愕膽?yīng)用程序安裝數(shù)量和應(yīng)用類型是相鄰的,并不意味著它們有任何與應(yīng)用安裝日期和使用時(shí)間一樣常見的「本地的、共享的特性」。當(dāng)然,它們可能有一個(gè)可被發(fā)現(xiàn)的潛在高層次的特征(例如。人們最需要的是哪些應(yīng)用程序),但這并沒有給我們足夠的理由相信前兩個(gè)的參數(shù)和后兩個(gè)的參數(shù)完全相同。這四種可能是任意的(一致的)順序,并且仍然有效!

然而,像素總是以一致的順序出現(xiàn),而且附近的像素互相影響。例如,如果某像素附近所有像素都是紅色的,那么該像素極有可能也是紅色的。如果有偏差,這是一個(gè)有趣的反常現(xiàn)象,可以轉(zhuǎn)化成一個(gè)特征,所有這些偏差可以通過(guò)與周圍像素的比較檢測(cè)出來(lái)。

這個(gè)想法實(shí)際上是很多早期的計(jì)算機(jī)視覺特征提取方法的基礎(chǔ)。例如,對(duì)于邊緣檢測(cè),你可以使用 Sobel 邊緣檢測(cè)濾波器,這是一個(gè)具有固定參數(shù)的核,運(yùn)算過(guò)程和標(biāo)準(zhǔn)的單通道卷積一樣:

直觀理解深度學(xué)習(xí)卷積部分

使用垂直邊緣檢測(cè)卷積核

對(duì)于沒有邊緣的陣列(例如天空背景),大部分像素是一樣的值,所以卷積核在這些點(diǎn)輸出為 0。對(duì)于有垂直邊緣的陣列,邊緣左右兩側(cè)的像素是不同的,卷積核的計(jì)算結(jié)果也是非零的,從而揭示邊緣。在檢測(cè)局部范圍內(nèi)異常時(shí),卷積核一次只作用于 3 × 3 的陣列,但是當(dāng)應(yīng)用到整個(gè)圖像時(shí),也足以在全局范圍內(nèi)檢測(cè)到來(lái)自于在圖像的任何位置的某個(gè)特定的特征,!

所以我們?cè)谏疃葘W(xué)習(xí)中所做的關(guān)鍵區(qū)別是問(wèn)這個(gè)問(wèn)題:有用的核能被學(xué)習(xí)嗎?對(duì)于以原始像素為基礎(chǔ)的初始層,我們可以合理地期望具有相當(dāng)?shù)退教卣鞯奶卣鳈z測(cè)器,如邊、線等。

深度學(xué)習(xí)研究有一個(gè)專注于神經(jīng)網(wǎng)絡(luò)可解釋性的完整分支。這一分支最強(qiáng)大的工具之一是使用優(yōu)化方法可視化特征 [3]。核心思想很簡(jiǎn)單:優(yōu)化圖像(通常是使用隨機(jī)噪聲初始化)來(lái)激活濾波器,使其盡可能強(qiáng)壯。這確實(shí)很直觀:如果經(jīng)過(guò)優(yōu)化的圖像完全被邊緣填充,這就是過(guò)濾器本身所尋找并被激活的強(qiáng)有力的證據(jù)。使用這個(gè),我們可以窺視到學(xué)習(xí)的過(guò)濾器,結(jié)果是驚人的:

直觀理解深度學(xué)習(xí)卷積部分

來(lái)自 GoogLeNet[3] 第一個(gè)卷積層的 3 個(gè)不同通道的特征可視化,注意,即便它們檢測(cè)到不同的邊緣類型時(shí),它們?nèi)匀皇呛艿图?jí)的邊緣檢測(cè)器。

直觀理解深度學(xué)習(xí)卷積部分

來(lái)自第二和第三個(gè)卷積的通道 12 的特征可視化。

這里需要注意的一個(gè)重要的事情是經(jīng)過(guò)卷積的圖像仍然是圖像。來(lái)自圖像左上角的小陣列像素輸出依然位于左上角。所以你可以在另一個(gè)上面運(yùn)行另一個(gè)卷積層(比如左邊的兩個(gè))來(lái)提取更深層的特征,這我們可以想象到。

然而,無(wú)論我們的特征探測(cè)器能檢測(cè)到多深,沒有任何進(jìn)一步的改變,它們?nèi)匀恢荒茉诜浅P〉膱D像上運(yùn)行。無(wú)論你的探測(cè)器有多深,你都無(wú)法從 3×3 陣列中檢測(cè)到人臉。這就是感受域的概念。

感受域

任何 CNN 架構(gòu)的一個(gè)基本的設(shè)計(jì)選擇是輸入的大小從開始到網(wǎng)絡(luò)的末端變得越來(lái)越小,而通道的數(shù)量越來(lái)越深。如之前所述,這個(gè)經(jīng)常是通過(guò)步長(zhǎng)或池化層完成的。Locality 決定了輸出層看到的前一層的輸入。感受域決定了從輸出的角度看到的整個(gè)網(wǎng)絡(luò)的原始輸入?yún)^(qū)域。

條紋卷積的概念是我們只處理一個(gè)固定的距離,而忽略中間的那些。從不同的視角,我們只保持固定距離的輸出,而移去剩余部分 [1]。

直觀理解深度學(xué)習(xí)卷積部分

3×3 卷積,步長(zhǎng) 2

然后我們對(duì)輸出應(yīng)用非線性,然后根據(jù)通常情況,在上面疊加另一個(gè)新的卷積層。這就是有趣的地方。即使我們將有相同大小和相同局部區(qū)域的核(3×3),應(yīng)用到條紋卷積的輸出,核將會(huì)擁有更大的感受域:

直觀理解深度學(xué)習(xí)卷積部分

這是因?yàn)闂l紋層的輸出仍然代表相同圖像。它不像調(diào)整大小那樣裁剪,唯一的問(wèn)題是,輸出中的每個(gè)像素都是一個(gè)較大區(qū)域(其他像素被丟棄)的「代表性」,從原始輸入的相同的粗糙位置。因此,當(dāng)下一層的核在輸出上運(yùn)行時(shí),它實(shí)際運(yùn)行于從更大的區(qū)域收集的像素上。

(注意:如果你熟悉擴(kuò)張卷積,注意上面的不是擴(kuò)張卷積。兩個(gè)都是增加感受域的方法,擴(kuò)張卷積是一個(gè)單獨(dú)層,而這是發(fā)生在一個(gè)正規(guī)卷積上,之后是條紋卷積,中間幀是非線性)

直觀理解深度學(xué)習(xí)卷積部分

對(duì)每個(gè)主要的卷積塊集合的通道進(jìn)行可視化,顯示復(fù)雜性的逐步增加 [3]

這個(gè)感受域的擴(kuò)展允許卷積層將低層次的特性(線,邊)與更高層次的特征(曲線,紋理)組合,就像我們?cè)?mixed3a 層中看到的那樣。

緊接著是池化/ 跨越層 , 網(wǎng)絡(luò)繼續(xù)為更高級(jí)別的特性(部件、模式)創(chuàng)建檢測(cè)器。如我們?cè)?mixed4a 所看到的。

網(wǎng)絡(luò)中,圖像尺寸的重復(fù)減小,導(dǎo)致在卷積的第五個(gè)塊中,其輸入大小僅 7×7,與 224×224 的輸入相比。從這點(diǎn)來(lái)看,每個(gè)單獨(dú)像素代表了 32×32 像素陣列,這是相當(dāng)大的。

與前面的層相比,對(duì)前面的層來(lái)說(shuō),一個(gè)激活意味著檢測(cè)一個(gè)邊界,而這里,7×7 上的激活就是一個(gè)高級(jí)的特征,例如鳥類。

整個(gè)網(wǎng)絡(luò)從少量的濾波器(GoogLeNet 有 64 個(gè)),只能檢測(cè)低級(jí)的特征,發(fā)展到擁有大量濾波器(在最終的卷積網(wǎng)絡(luò)中有 1024 個(gè)),每個(gè)濾波器用于查找特定的高級(jí)特征。之后是池化層,將每個(gè) 7×7 陣列精簡(jiǎn)成 1 個(gè)像素,每個(gè)通道都是一個(gè)擁有一個(gè)與整個(gè)圖像對(duì)應(yīng)的感受域的特征檢測(cè)器。

與前向傳播網(wǎng)絡(luò)所完成的工作相比,這里的輸出令人驚訝。一個(gè)標(biāo)準(zhǔn)前向傳播網(wǎng)絡(luò)從圖像的像素集合中生成抽象的特征向量,需要大量難以處理的數(shù)據(jù)進(jìn)行訓(xùn)練。

卷積神經(jīng)網(wǎng)絡(luò),with the priors imposed on it, 通過(guò)學(xué)習(xí)低級(jí)別的特征檢測(cè)器開始,它的感受域逐層擴(kuò)展,學(xué)習(xí)將那些低級(jí)的特征逐漸與高層的特征融合;不是每個(gè)單個(gè)像素的抽象結(jié)合,而是強(qiáng)大的視覺層次的概念。

通過(guò)檢測(cè)第級(jí)別的特征,并使用它們檢測(cè)高級(jí)別特征,隨著視覺層次的發(fā)展,最終能夠檢測(cè)整個(gè)視覺概念,例如人臉、鳥類、樹木等,這就是為什么它們?nèi)绱藦?qiáng)大,但卻能有效地利用圖像數(shù)據(jù)。

關(guān)于對(duì)抗攻擊的最后說(shuō)明

有了視覺層次卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)建,我們可以很合理地假設(shè)他們的視覺系統(tǒng)與人類相似。他們?cè)谔幚碚鎸?shí)世界的圖像時(shí)表現(xiàn)很棒,但是它們?cè)谀承┓矫嬉彩×?,這強(qiáng)烈地表明他們的視覺系統(tǒng)和人類的并不完全相似。最主要的問(wèn)題:對(duì)抗樣本 [4],這些樣本被做了特別修改導(dǎo)致模型被愚弄。

直觀理解深度學(xué)習(xí)卷積部分

對(duì)人類來(lái)說(shuō),兩張圖片明顯都是熊貓,但對(duì)模型來(lái)說(shuō),并不是這樣。[4]

如果人類能夠注意到那些導(dǎo)致模型失敗的被篡改的例子,那么對(duì)抗樣本就不是問(wèn)題了。問(wèn)題是,這些模型容易受到樣本的攻擊,這些樣本只被稍微修改過(guò),而且顯然不會(huì)欺騙任何人類。這為模型打開了一扇門,很小的失敗,對(duì)于從自動(dòng)駕駛汽車到醫(yī)療保健的廣泛應(yīng)用來(lái)說(shuō),是相當(dāng)危險(xiǎn)的。

對(duì)抗攻擊的魯棒性是目前高度活躍的研究領(lǐng)域,許多論文、甚至競(jìng)賽和解決方案的課題肯定會(huì)改善 CNN 的架構(gòu),使其變得更安全、更可靠。

結(jié)論

卷積神經(jīng)網(wǎng)絡(luò)是允許計(jì)算機(jī)視覺從簡(jiǎn)單的應(yīng)用程序擴(kuò)展到為復(fù)雜的產(chǎn)品和服務(wù)提供動(dòng)力的模型,從你的照片庫(kù)中的人臉檢測(cè)到做出更好的醫(yī)學(xué)診斷。它可能會(huì)是計(jì)算機(jī)視覺向前發(fā)展的關(guān)鍵方法,或者一些新的突破可能就在眼前。

無(wú)論如何,有一件事是肯定的:它們都是令人驚嘆的東西,是當(dāng)今許多創(chuàng)新應(yīng)用的核心,而且最值得深入理解。

參考文獻(xiàn)

  1. A guide to convolution arithmetic for deep learning(https://arxiv.org/abs/1603.07285)

  2. CS231n Convolutional Neural Networks for Visual Recognition?—?Convolutional Neural Networks(http://cs231n.github.io/convolutional-networks/)

  3. Feature Visualization?—?How neural networks build up their understanding of images (of note: the feature visualizations here were produced with the Lucid library, an open source implementation of the techniques from this journal article)(https://distill.pub/2017/feature-visualization/)

  4. Attacking Machine Learning with Adversarial Examples(https://blog.openai.com/adversarial-example-research/)

更多資源

  1. fast.ai?—?Lesson 3: Improving your Image Classifier(http://course.fast.ai/lessons/lesson3.html)

  2. Conv Nets: A Modular Perspective(http://colah.github.io/posts/2014-07-Conv-Nets-Modular/)

  3. Building powerful image classification models using very little data(https://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html)

直觀理解深度學(xué)習(xí)卷積部分

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

直觀理解深度學(xué)習(xí)卷積部分

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語(yǔ)言不再成為學(xué)習(xí)知識(shí)的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)