十分鐘看懂圖像語義分割技術(shù)

本文作者： AI研習(xí)社

編輯：賈智龍

2017-05-03 16:12

導(dǎo)語：圖像語義分割真的沒你想的那么難。

大多數(shù)人接觸 “語義” 都是在和文字相關(guān)的領(lǐng)域，或語音識別，期望機(jī)器能夠識別你發(fā)出去的消息或簡短的語音，然后給予你適當(dāng)?shù)姆答伜突貜?fù)。嗯，看到這里你應(yīng)該已經(jīng)猜到了，圖像領(lǐng)域也是存在 “語義” 的。

今天是 AI 大熱年，很多人都關(guān)注與機(jī)器人的語音交互，可是有沒有想過，將來的機(jī)器人如果不能通過圖像來識別主人，家里的物品、寵物，那該多沒意思。說近一些，假如掃地機(jī)器人能夠機(jī)智地繞開你丟在地上的臭襪子而掃走旁邊的紙屑，一定能為你的生活解決不少麻煩。

沒錯，圖像語義分割是 AI 領(lǐng)域中一個重要的分支，是機(jī)器視覺技術(shù)中關(guān)于圖像理解的重要一環(huán)，是不是聽上去即重要又牛 X 閃閃的。

近年的自動駕駛技術(shù)中，也需要用到這種技術(shù)。車載攝像頭探查到圖像，后臺計(jì)算機(jī)可以自動將圖像分割歸類，以避讓行人和車輛等障礙。

十分鐘看懂圖像語義分割技術(shù)

圖像語義分割

圖像語義分割的意思就是機(jī)器自動分割并識別出圖像中的內(nèi)容，比如給出一個人騎摩托車的照片，機(jī)器判斷后應(yīng)當(dāng)能夠生成右側(cè)圖，紅色標(biāo)注為人，綠色是車（黑色表示 back ground）。

十分鐘看懂圖像語義分割技術(shù)

所以圖像分割對圖像理解的意義，就好比讀古書首先要斷句一樣。

在 Deeplearning 技術(shù)快速發(fā)展之前，就已經(jīng)有了很多做圖像分割的技術(shù)，其中比較著名的是一種叫做 “Normalized cut” 的圖劃分方法，簡稱 “N-cut”。

N-cut 的計(jì)算有一些連接權(quán)重的公式，這里就不提了，它的思想主要是通過像素和像素之間的關(guān)系權(quán)重來綜合考慮，根據(jù)給出的閾值，將圖像一分為二。

下圖是將像素間的關(guān)系信息簡單描述成為距離，根據(jù)距離差距來劃分圖像的示例：

十分鐘看懂圖像語義分割技術(shù)

在實(shí)際運(yùn)用中，每運(yùn)行一次 N-cut，只能切割一次圖片，為了分割出圖像上的多個物體，需要多次運(yùn)行，下圖示例了對原圖 a 進(jìn)行 7 次 N-cut 后，每次分割出的結(jié)果。

十分鐘看懂圖像語義分割技術(shù)

但是可以很明顯的看到這種簡單粗暴的分割方式并不準(zhǔn)確，趴在地上的運(yùn)動員肢體在 b 圖中分割出來，而他的手臂則在 h 圖中被分割，顯然是錯誤的。

N-cut 技術(shù)的缺陷很明顯，于是有了一種更新的優(yōu)化方式，這種優(yōu)化方式為了避免機(jī)器不能很好的分割類似上面例子中 “衣服和肢體顏色反查太大導(dǎo)致分割錯誤” 的情況，增加了人機(jī)交互，在分割過程中，需要人工干預(yù)參與完成。

這種需要人機(jī)交互的技術(shù)叫 Grab Cut。

[敲黑板]~~ 注意，PS 里就使用了這種技術(shù)。

這種技術(shù)其實(shí)是這樣的，給定一張圖片，然后人工在想要摳圖（也就是我們說的分割）的區(qū)域畫一個紅框，然后機(jī)器會對略小于這個框的內(nèi)容進(jìn)行 “主體計(jì)算”，嗯，這個 “主體計(jì)算” 是我起的名字，為了你們更好的理解背后復(fù)雜的設(shè)計(jì)和公式，因?yàn)闄C(jī)器會默認(rèn)紅框中部是用戶期望得到的結(jié)果，所以將中部作為主體參考，然后剔除和主體差異較大的部分，留下結(jié)果。

十分鐘看懂圖像語義分割技術(shù)

此技術(shù)中，摳出來的部分叫 “前景”，剔除的部分叫 “背景”。

有時候還挺好用的，但是稍微復(fù)雜一點(diǎn)的時候問題就來了：比如要摳下面這個戴頭盔的大兵，頭盔顏色和背后巖石顏色很相近，結(jié)果機(jī)器就會把頭盔部分剔除，同樣脖子附近的山巖也被當(dāng)做了前景而保留了進(jìn)來。

十分鐘看懂圖像語義分割技術(shù)

此時又需要進(jìn)行人工干預(yù)了，需要手動在圖像上進(jìn)行標(biāo)注，畫白色線表示是希望保留的前景，紅色表示背景，指導(dǎo)輔助機(jī)器進(jìn)行判斷，再次運(yùn)算后，得到了較好的期望結(jié)果。

雖然看上去 Grab Cut 給出的結(jié)果還不錯，但缺點(diǎn)也很明顯，首先，它同 N-cut 一樣也只能做二類語義分割，說人話就是一次只能分割一類，非黑即白，多個目標(biāo)圖像就要多次運(yùn)算。其次，它需要人工干預(yù)，這個弱點(diǎn)在將來批量化處理和智能時代簡直就是死穴。

OK，人類的智慧是無止境的，DeepLearning（深度學(xué)習(xí)）終于開始大行其道了。

深度學(xué)習(xí)

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個分支，主要指深度神經(jīng)網(wǎng)絡(luò)算法，深度神經(jīng)網(wǎng)絡(luò)比普通神經(jīng)網(wǎng)絡(luò)層次更多，能夠更好地捕捉數(shù)據(jù)中的深層次關(guān)系，得到的模型較為準(zhǔn)確，主要用來進(jìn)行特征學(xué)習(xí)。

先別急著暈，我們先來看看神經(jīng)網(wǎng)絡(luò)是怎么工作的。

神經(jīng)網(wǎng)絡(luò)是模仿人的神經(jīng)元而建立的人工神經(jīng)元系統(tǒng)，多輸入單輸出，同時輸出又作為下一個神經(jīng)元的輸入……（請自行腦補(bǔ)那張牙舞爪妖孽的神經(jīng)元細(xì)胞~ 什么？沒見過？文科生，拖出去~~）

下圖表示的是一個單個神經(jīng)元：

十分鐘看懂圖像語義分割技術(shù)

把這些單個神經(jīng)元組織在一起，便形成了神經(jīng)網(wǎng)絡(luò)。下圖便是一個三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)：

十分鐘看懂圖像語義分割技術(shù)

上圖中最左邊的原始輸入信息稱之為輸入層，最右邊的神經(jīng)元稱之為輸出層（上圖中輸出層只有一個神經(jīng)元），中間的叫隱藏層。

深度神經(jīng)網(wǎng)絡(luò)系統(tǒng)中的層數(shù)比較多，達(dá)到 8-10 層（普通神經(jīng)網(wǎng)絡(luò)的層數(shù)通常 3-4 層）。

在此前使用的圖像識別算法中，主流的技術(shù)是卷積神經(jīng)網(wǎng)絡(luò)算法（Convolutional Neural Networks），簡稱 CNN。卷積神經(jīng)網(wǎng)絡(luò)就是一種深度神經(jīng)網(wǎng)絡(luò)。

但是在 2015 年的 CVPR 上發(fā)表了一篇很牛 X 的論文（路人甲：請問 CVPR 是神馬？答：CVPR 可以簡單理解為這個領(lǐng)域的最重量級的會議：國際計(jì)算機(jī)視覺與模式識別會議），提出了 FCN 即 全卷積神經(jīng)網(wǎng)絡(luò)（Fully Convolutional Networks）。

為什么說這個 FCN 論文很牛叉呢？看起來只是多了一個字而已呀，有什么不得了的呢？

嗯，不得不說，真是 “差之毫厘，謬以千里” 啊。

我還是先來幫大家復(fù)習(xí)一下卷積。

我查了很多書，卷積有各種各樣的公式，還有各種各樣的推導(dǎo)算法，但是為了降低本文的難讀指數(shù)，所以我直接跳到卷積的物理意義，不要太 care 那些公式，其實(shí)卷積的物理意義，就是 “加權(quán)疊加”。

在對圖像處理進(jìn)行卷積時，根據(jù)卷積核的大小，輸入和輸出之間也會有規(guī)模上的差異。

來看一張動圖（僅做示例）

十分鐘看懂圖像語義分割技術(shù)

上圖左邊 5*5 的方塊視為圖像輸入，黃色移動的 3*3 以及里面的數(shù)字（*1/*0）是卷積核，該卷積核按照步長為 1 的順序依次從原始輸入的左上角一直移動計(jì)算疊加到右下角，卷積核一共移動 9 次。

九次的位置對應(yīng)到右側(cè)的 3*3 的相應(yīng)格內(nèi)，格中的數(shù)字便是卷積值，（此處是卷積核所覆蓋的面積內(nèi)元素相乘再累加的結(jié)果）。

9 次移動計(jì)算完畢后，右側(cè) 3*3 的新矩陣為此次卷積層的計(jì)算結(jié)果。

如果這么說還是不太好理解，沒關(guān)系，我有更直觀的辦法 ^_^。

在實(shí)際計(jì)算過程中，輸入是一張?jiān)紙D片和濾波器 filter（一組固定的權(quán)重，也就是上面我們說的卷積核對應(yīng)的實(shí)際意義）做內(nèi)積后得到新的二維數(shù)據(jù)。

不同的濾波器 filter 會得到不同的輸出數(shù)據(jù)，比如輪廓、顏色深淺，如果想提取圖像的不同特征，需要用不同的濾波器 filter 提取想要的關(guān)于圖像的特定信息。

十分鐘看懂圖像語義分割技術(shù)

上圖為一個卷積層中的卷積處理過程，注意上下兩次卷積核內(nèi)容是不同的，所以得到兩種處理結(jié)果。

等號右邊的新的二維信息在 CNN 網(wǎng)絡(luò)中，會作為下一個卷積層的輸入，即在下一個卷積層計(jì)算時，右邊的圖像會作為輸入的原始圖像。

在 CNN 網(wǎng)絡(luò)中，一共會進(jìn)行 5 次卷積層計(jì)算。
路人甲：那最后會得到一個什么鬼？
沈 MM：咳咳，在連續(xù)的 5 個卷積層計(jì)算后，緊跟這的是 3 個全連接層。
路人甲：什么是全連接層？
沈 MM：全連接層，并不是一個二維圖像，而是—— 一個一維向量。
路人甲已哭暈在廁所。

這三個一維向量的前兩個向量長度是 4096，最后一個向量長度是 1000.

為什么是 1000？

因?yàn)樵?CNN 網(wǎng)絡(luò)中，有 1000 個分類，最后的這個向量中的 1000 個元素表達(dá)的信息是：這張?jiān)驾斎雸D片中的東西可能是這 1000 個分類中的物體的概率。

是的，一張圖，算了半天，最后給出的是，這張圖是個什么玩意的答案。

十分鐘看懂圖像語義分割技術(shù)

右側(cè)綠色箭頭指向的表示最后一個全連接層的向量中，表示各種物體的概率，上圖被識別為一輛車。

好了，上面說的是卷積神經(jīng)網(wǎng)絡(luò) CNN 的處理過程（相信我我已經(jīng)很簡化了）。

那么全卷積神經(jīng)網(wǎng)絡(luò)呢？

大家應(yīng)該注意到，CNN 的輸入是圖像，輸出是一個結(jié)果，或者說是一個值，一個概率值。

FCN 提出所追求的是，輸入是一張圖片是，輸出也是一張圖片，學(xué)習(xí)像素到像素的映射。

十分鐘看懂圖像語義分割技術(shù)

上圖上半部分是 CNN 網(wǎng)絡(luò)，下半部分是 CN 網(wǎng)絡(luò)

那么 “全卷積” 又體現(xiàn)在哪里呢？

CNN 網(wǎng)絡(luò)中的后三層，都是一維的向量，計(jì)算方式不再采用卷積，所以丟失了二維信息，而 FCN 網(wǎng)絡(luò)中，將這三層全部轉(zhuǎn)化為 1*1 的卷積核所對應(yīng)等同向量長度的多通道卷積層，使后三層也全部采用卷積計(jì)算，整個模型中，全部都是卷積層，沒有向量，所以稱為 “全卷積”。

FCN 將第 6 層和 7 層分別從 4096 長度的向量轉(zhuǎn)化為 4096 通道的卷積層，第 8 層則是 21 通道的卷積層。之所以第 8 層從 1000 縮減到 21，是因?yàn)?FCN 使用的識別庫是 PASCAL VOC，在 PASCAL VOC 中有 20 種物體分類，另外一個 background 分類。（關(guān)于 PASCAL VOC 參見附錄）

再多說一句，以下（甚至全文）所用到的分割圖片中不同的顏色就表示不同的物體類別，一共有 21 種顏色：

十分鐘看懂圖像語義分割技術(shù)

CNN 的識別是圖像級的識別，也就是從圖像到結(jié)果，而 FCN 的識別是像素級的識別，對輸入圖像的每一個像素在輸出上都有對應(yīng)的判斷標(biāo)注，標(biāo)明這個像素最可能是屬于一個什么物體 / 類別。

在此處特別要指出的是，在實(shí)際的圖像語義分割測試時，輸入是一個 H*W*3 的三通道彩色圖像，而輸出是一個 H*W 的矩陣。

這就可以簡單看做每一個像素所攜帶的信息是多維的，比如顏色，就分為 3 層，分別對應(yīng) R、G、B 三個值。（不知道什么是 RGB 的，鑒定為文科生，請迅速撤離，謝謝）

所以在進(jìn)行卷積的時候，每一個通道都是要獨(dú)立計(jì)算的，計(jì)算完之后再疊加，得到最終卷積層結(jié)果。

如果卷積核移動的步長為 1，那么卷積是按照像素排列去挨個計(jì)算的，計(jì)算量可想而知會有多么龐大。但是在實(shí)際中，相鄰的像素往往都是一類，按照像素依次計(jì)算就顯得冗余，所以在卷積之后會對輸出進(jìn)行一次池化（pooling）處理。

那么什么又是池化呢？

來，我們再來看一張動圖：

十分鐘看懂圖像語義分割技術(shù)

池化簡單來說就是將輸入圖像切塊，大部分時候我們選擇不重疊的區(qū)域，假如池化的分割塊大小為 h*h，分割的步長為 j，那么一般 h=j，就像上圖，如果需要重疊，只需要 h>j 即可。

對完整圖像切分，再取切分區(qū)域中所有值的均值或最大值作為代表該區(qū)域的新值，放入池化后的二維信息圖中。得到的新圖就是池化結(jié)果。

在 CNN 和 FCN 的網(wǎng)絡(luò)模型中，每一個卷積層，都包含了 [卷積 + 池化] 處理，這就是傳說中的 “下采樣”，但這樣處理之后的結(jié)果是：圖像的像素信息變小了，每一層的像素信息都是前一層的 1/2 大小，到第五層的時候，圖像大小為原始圖像的 1/32。

在 CNN 算法里，這并沒有什么要緊的，因?yàn)?CNN 最終只輸出一個結(jié)果：“這個圖上是個啥”，但是 FCN 不同，F(xiàn)CN 是像素級別的識別，也就是輸入有多少像素，輸出就要多少像素，像素之間完全映射，并且在輸出圖像上有信息標(biāo)注，指明每一個像素可能是什么物體 / 類別。

所以就必須對這 1/32 的圖像進(jìn)行還原。

這里用到個純數(shù)學(xué)技術(shù)，叫 “反卷積”，對第 5 層進(jìn)行反卷積，可以將圖像擴(kuò)充至原來的大?。▏?yán)格說是近似原始大小，一般會大一點(diǎn)，但是會裁剪掉，為什么會大的原理略復(fù)雜，這里先不提，以后寫進(jìn)階版再放進(jìn)來）。

——這個 “反卷積” 稱為 “上采樣”。（和下采樣對應(yīng)）

十分鐘看懂圖像語義分割技術(shù)

在技術(shù)上，我們可以對任一層卷積層做反卷積處理，得到最后的圖像，比如用第三層 (8s-8 倍放大)，第四層 (16s-16 倍放大)，第五層 (32s-32 倍放大) 得到的分割結(jié)果。

十分鐘看懂圖像語義分割技術(shù)

來看一張各層還原后的對比圖，分別是：

十分鐘看懂圖像語義分割技術(shù)

通過對比可以很明顯看到：在 16 倍還原和 8 倍還原時，能夠看到更好的細(xì)節(jié)，32 倍還原出來的圖，在邊緣分割和識別上，雖然大致的意思都出來了，但細(xì)節(jié)部分（邊緣）真的很粗糙，甚至無法看出物體形狀。

為什么會這樣呢？

這里就涉及到一個感受域（receptive field）的概念。較淺的卷積層（靠前的）的感受域比較小，學(xué)習(xí)感知細(xì)節(jié)部分的能力強(qiáng)，較深的隱藏層 (靠后的)，感受域相對較大，適合學(xué)習(xí)較為整體的、相對更宏觀一些的特征。

所以在較深的卷積層上進(jìn)行反卷積還原，自然會丟失很多細(xì)節(jié)特征。

于是我們會在反卷積步驟時，考慮采用一部分較淺層的反卷積信息輔助疊加，更好的優(yōu)化分割結(jié)果的精度：

十分鐘看懂圖像語義分割技術(shù)

盡管 FCN 的提出是一條很牛叉的路，但還是無法避免有很多問題，比如，精度問題，對細(xì)節(jié)不敏感，以及像素與像素之間的關(guān)系，忽略空間的一致性等問題。

于是更牛的大牛就出現(xiàn)了。

有牛人提出一種新的卷積計(jì)算方式，開始稱為 “帶 hole” 的卷積，也就是使用一種 “疏松的卷積核” 來計(jì)算，以此來取代池化的處理。

上面已經(jīng)講過，池化操作能夠減少計(jì)算量，同時也能防止計(jì)算結(jié)果過擬合，那么單純?nèi)∠鼗僮饔謺箚螌泳W(wǎng)絡(luò)的感受域縮小，但如果使用 “疏松的卷積核” 來處理卷積，可以達(dá)到在不增加計(jì)算量的情況下增加感受域，彌補(bǔ)不進(jìn)行池化處理后的精度問題。

括?。哼@種帶洞的卷積方式后來起了一個高雅的名字叫做：“Dilated Convolutions”。

這種方式人為加大了卷積核內(nèi)部元素之間的距離，可參考下圖：

十分鐘看懂圖像語義分割技術(shù)

紅點(diǎn)表示卷積核的元素，綠色表示感受域，黑線框表示輸入圖像。

a 為原始卷積核計(jì)算時覆蓋的感受域，b 為當(dāng)卷積核覆蓋的元素間距離增大的情況，不再在連續(xù)的空間內(nèi)去做卷積，跳著做，當(dāng)這個距離增加的越大時，單次計(jì)算覆蓋的感受域面積越大。

上圖不太好理解的話再來看一張圖：（個人覺得下面這個圖非常好理解）

十分鐘看懂圖像語義分割技術(shù)

上層綠色點(diǎn)表示輸入層像素點(diǎn)，下層黃色是輸出層（單次計(jì)算時的層級關(guān)系），當(dāng)卷積核元素間距為 0 時（相鄰），123 對應(yīng)輸出 A，234 對應(yīng)輸出 B，345 對應(yīng)輸出 C，那么輸出 ABC 三個元素結(jié)果的感受域只覆蓋了 12345 這幾個原始像素點(diǎn)。

如果采用稀疏的卷積核，假設(shè)間距為 1（相當(dāng)于卷積計(jì)算時跳一個像素再取值計(jì)算），如圖示，那么結(jié)果 A 對應(yīng)的輸入是 135，結(jié)果 B 對應(yīng)的輸入是 246，結(jié)果 C 對應(yīng)的輸入是 357，同樣輸出 ABC 三個結(jié)果，在原始圖像上取的像素點(diǎn)的長度就多了。

這是水平 X 軸方向上的擴(kuò)展，在 Y 軸上也會有同樣的擴(kuò)展，感受域在沒有增加計(jì)算（相對于池化操作后）的情況下增大了，并且保留了足夠多的細(xì)節(jié)信息，對圖像還原后的精度有明顯的提升。

看一下對比圖：

十分鐘看懂圖像語義分割技術(shù)

第一列是原始圖像，最后一列是手工標(biāo)注的訓(xùn)練輸入圖像，第二列為 FCN 在 1/8 倍數(shù)下的還原，第三列則是采用了新的卷積算法的還原圖像，可以很明顯看到，第三列對細(xì)節(jié)的分割明顯優(yōu)于第二列 FCN 8 倍的圖像。

剛才還提到了第二個問題，即像素與像素之間的邏輯關(guān)系的問題，畢竟前面再牛叉的算法也只是單純的計(jì)算沒有根據(jù)物理意義進(jìn)行判斷在輸出的標(biāo)注里這些結(jié)果是否合法（符合現(xiàn)實(shí)邏輯）。

很多以深度學(xué)習(xí)為框架的圖像語義分割系統(tǒng)都使用了一種叫做 “條件隨機(jī)場”（ Conditional Random Field，簡稱 CRF）的技術(shù)作為輸出結(jié)果的優(yōu)化后處理手段。其實(shí)類似技術(shù)種類較多，比如還有馬爾科夫隨機(jī)場 (MRF) 和高斯條件隨機(jī)場 (G-CRF) 用的也比較多，但原理都較為類似。

簡單來介紹一下 “條件隨機(jī)場” 的概念。

FCN 是像素到像素的影射，所以最終輸出的圖片上每一個像素都是標(biāo)注了分類的，將這些分類簡單地看成是不同的變量，每個像素都和其他像素之間建立一種連接，連接就是相互間的關(guān)系。

于是就會得到一個 “完全圖”：

十分鐘看懂圖像語義分割技術(shù)

上圖是以 4*6 大小的圖像像素陣列表示的簡易版。

那么在全鏈接的 CRF 模型中，有一個對應(yīng)的能量函數(shù)：

十分鐘看懂圖像語義分割技術(shù)

嗯，不要問我這個公式里各種符號是啥，我看不懂。但是我知道這個公式是干嘛滴：

其中等號右邊第一個一元項(xiàng)，表示像素對應(yīng)的語義類別，其類別可以由 FCN 或者其他語義分割模型的預(yù)測結(jié)果得到；而第二項(xiàng)為二元項(xiàng)，二元項(xiàng)可將像素之間的語義聯(lián)系 / 關(guān)系考慮進(jìn)去。

這么說太抽象，舉個簡單的例子，“天空”和 “鳥” 這樣的像素在物理空間是相鄰的概率，應(yīng)該要比 “天空” 和 “魚” 這樣像素相鄰的概率大，那么天空的邊緣就更應(yīng)該判斷為鳥而不是魚（從概率的角度）。

通過對這個能量函數(shù)優(yōu)化求解，把明顯不符合事實(shí)識別判斷剔除，替換成合理的解釋，得到對 FCN 的圖像語義預(yù)測結(jié)果的優(yōu)化，生成最終的語義分割結(jié)果。

優(yōu)化后的對比圖：

十分鐘看懂圖像語義分割技術(shù)

上圖第二列是 FCN 網(wǎng)絡(luò) 8 倍還原分割結(jié)果，第三列是將 CRF 植入 FCN 處理后的結(jié)果。

可以很明顯的看到，第三列的物體識別無論是輪廓細(xì)節(jié)分割還是物體識別，都優(yōu)于第二列，特別是第二行的沙發(fā)中有奇怪的紅色東西的識別，在進(jìn)行 CRF 優(yōu)化之后，還原成了綠色的沙發(fā)。

OK，說了這么多，終于快要講完了（好累）。

以上就是目前較為前沿的圖像語義分割技術(shù)。

目前的這種機(jī)器學(xué)習(xí)方式還屬于監(jiān)督性學(xué)習(xí)，牛叉閃閃的科學(xué)家們還是希望將來可以實(shí)現(xiàn)半監(jiān)督或弱監(jiān)督式學(xué)習(xí)，這樣更類似人類的學(xué)習(xí)認(rèn)知方式。

在這條道路上，還有很多有趣的東西，比如示例級別（instance level）的圖像語義分割問題也同樣熱門。

該類問題不僅需要對不同語義物體進(jìn)行圖像分割，同時還要求對同一語義的不同個體進(jìn)行分割（例如需要對圖中出現(xiàn)的九把椅子的像素用不同顏色分別標(biāo)示出來）。

十分鐘看懂圖像語義分割技術(shù)

另外，在目前的計(jì)算技術(shù)水平下（硬件軟件），使用 FCN 訓(xùn)練建模的時間大約需要三周，這也說明在這個領(lǐng)域里還有很多值得探索和需要解決的問題。

對此有興趣的同學(xué)們自己去繼續(xù)研究吧，哈哈。

曾有一個業(yè)界大牛說過這樣一段話，送給大家：

“華人在計(jì)算機(jī)視覺領(lǐng)域的研究水平越來越高，這是非常振奮人心的事。我們中國錯過了工業(yè)革命，錯過了電氣革命，信息革命也只是跟隨狀態(tài)。但人工智能的革命，我們跟世界上的領(lǐng)先國家是并肩往前跑的。能身處這個時代浪潮之中，做一番偉大的事業(yè)，經(jīng)常激動的夜不能寐?！?/span>

AI 的浪潮即將席卷而來，你，準(zhǔn)備好了么？

------ 附錄的分割線 -----

PASCAL VOC(patternanalysis,statistical modelling and computational learning visual objectclasses) 模式分析，統(tǒng)計(jì)建模，計(jì)算學(xué)習(xí)，視覺物體分類。

PASCAL VOC 挑戰(zhàn)賽是視覺對象的分類識別和檢測的一個基準(zhǔn)測試，提供了檢測算法和學(xué)習(xí)性能的標(biāo)準(zhǔn)圖像注釋數(shù)據(jù)集和標(biāo)準(zhǔn)的評估系統(tǒng)。從 2005 年至今，該組織每年都會提供一系列類別的、帶標(biāo)簽的圖片，挑戰(zhàn)者通過設(shè)計(jì)各種精妙的算法，僅根據(jù)分析圖片內(nèi)容來將其分類，最終通過準(zhǔn)確率、召回率、效率來一決高下。如今，挑戰(zhàn)賽和其所使用的數(shù)據(jù)集已經(jīng)成為了對象檢測領(lǐng)域普遍接受的一種標(biāo)準(zhǔn)。

委員會所提供的圖片集包括 20 個目錄：人類；動物（鳥、貓、牛、狗、馬、羊）；交通工具（飛機(jī)、自行車、船、公共汽車、小轎車、摩托車、火車）；室內(nèi)（瓶子、椅子、餐桌、盆栽植物、沙發(fā)、電視）。都是一些日常中最常見的物體，為的就是能更好的體現(xiàn)算法的實(shí)用性。

后記

很多人跟我說過，不要寫那么長的文章，因?yàn)楝F(xiàn)在沒人會看長文。

可是我卻 “變本加厲” 寫這么長的技術(shù)文章。

為了寫這文章，中秋三天都在家里查資料，碼字。除了圖片在網(wǎng)上能找到現(xiàn)成的，其他沒有從哪里照搬過原話，6 千 6 百多字全是基于自己的理解然后盡量淺顯易懂滴寫出來~

但還是太技術(shù)了，因?yàn)檫@本身就是技術(shù)。

18 號我做了一個關(guān)于此項(xiàng)技術(shù)非學(xué)術(shù)性非正式的小范圍交流，會上大家也覺得偏技術(shù)流，于是我又根據(jù)交流過程中一些沒有闡述清楚的點(diǎn)補(bǔ)全了這篇文章，即便不會有多少人看，卻也還是要寫，要發(fā)的。

因?yàn)槭裁茨兀?nbsp;執(zhí)著吧。

其實(shí)我也想寫諸如 “一張圖看懂全卷積神經(jīng)網(wǎng)絡(luò)” 這樣粗淺易讀的東西，但是我對信息的精煉程度還達(dá)不到一張圖就能講清楚的水平，能力有限。

嗯，就醬。

雷鋒網(wǎng)按：原作者沈MM，本文原載于微信公眾號沈MM的小喇叭（ID：VoiceOfShenMM）。本文參考了魏秀參的知乎專欄，部分圖片來自魏秀參。

實(shí)戰(zhàn)特訓(xùn)：遠(yuǎn)場語音交互技術(shù)

智能音箱這么火，聽聲智科技CTO教你深入解析AI設(shè)備語音交互關(guān)鍵技術(shù)！

課程鏈接：http://www.mooc.ai/course/80

加入AI慕課學(xué)院人工智能學(xué)習(xí)交流QQ群：624413030，與AI同行一起交流成長

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

35人收藏

AI研習(xí)社

編輯

聚焦數(shù)據(jù)科學(xué)，連接 AI 開發(fā)者。更多精彩內(nèi)容，請?jiān)L問：yanxishe.com

發(fā)私信

當(dāng)月熱門文章

“因其偉大，故而艱難”，資深科普作家陳宗周解碼AI七十年