亞利桑那州立大學(xué)周縱葦：研習(xí) U-Net ——現(xiàn)有的分割網(wǎng)絡(luò)創(chuàng)新 | AI 研習(xí)社74期大講堂

本文作者：黃善清

2018-09-30 23:46

導(dǎo)語：講者以 U-Net 為案例分析，總結(jié)現(xiàn)有的分割網(wǎng)絡(luò)創(chuàng)新，以及探討還有哪些有針對(duì)性的改進(jìn)方向。

雷鋒網(wǎng)AI研習(xí)社按：經(jīng)典的 Encoder-Decoder 結(jié)構(gòu)在目標(biāo)分割問題中展現(xiàn)出了舉足輕重的作用，然而這樣一個(gè)相對(duì)固定的框架使得模型在感受野大小和邊界分割精度兩方面很難達(dá)到兼顧。本次公開課，講者以 U-Net 為案例分析，總結(jié)現(xiàn)有的分割網(wǎng)絡(luò)創(chuàng)新，以及探討還有哪些有針對(duì)性的改進(jìn)方向。

分享嘉賓：

周縱葦，亞利桑那州立大學(xué)生物信息學(xué)在讀博士，師從 Jianming Liang 教授，主要研究方向?yàn)獒t(yī)學(xué)圖像分析，深度學(xué)習(xí)等。其研究工作曾在 CVPR ， DLMIA ，EJNMMI Research 發(fā)表。

公開課回放地址：
http://www.mooc.ai/open/course/549?=Leiphone

分享主題：研習(xí) U-Net ——現(xiàn)有的分割網(wǎng)絡(luò)創(chuàng)新

分享提綱：

肢解經(jīng)典的 U-Net 結(jié)構(gòu)，反思其組成元素的必要性和優(yōu)缺點(diǎn)
解讀現(xiàn)有的對(duì)于 U-Net 結(jié)構(gòu)性創(chuàng)新的改進(jìn)思路
分享我們對(duì)其提出的一個(gè)改進(jìn)方案—— UNet++

雷鋒網(wǎng)AI研習(xí)社將其分享內(nèi)容整理如下：

在計(jì)算機(jī)視覺領(lǐng)域，全卷積網(wǎng)絡(luò) FCN 毫無疑問是最有人氣的圖像分割網(wǎng)絡(luò)，可一旦聚焦到醫(yī)學(xué)圖像處理領(lǐng)域，U-Net 網(wǎng)絡(luò)會(huì)是更熱門的選擇。這么說吧，幾乎所有的分割問題我們都會(huì)拿 U-Net 先看一下基本的結(jié)果，再進(jìn)行「魔改」。

和 FCN 相比，U-Net 的第一個(gè)特點(diǎn)是完全對(duì)稱，也就是左邊和右邊是很類似的，而 FCN 的 decoder 相對(duì)簡(jiǎn)單，只用了一個(gè) deconvolution 的操作，之后并沒有跟上卷積結(jié)構(gòu)；第二個(gè)區(qū)別就是 skip connection，F(xiàn)CN 用的是加操作（summation），U-Net 用的是疊操作（concatenation）。都是使用的「編碼-解碼」結(jié)構(gòu)——需要強(qiáng)調(diào)的是，「編碼-解碼」結(jié)構(gòu)一開始并非用于分割圖像，而是用在壓縮圖像和去除噪音上。

亞利桑那州立大學(xué)周縱葦：研習(xí) U-Net ——現(xiàn)有的分割網(wǎng)絡(luò)創(chuàng)新 | AI 研習(xí)社74期大講堂

簡(jiǎn)單的過一下這個(gè)網(wǎng)紅結(jié)構(gòu)，我們先提取出它的拓?fù)浣Y(jié)構(gòu)，這樣會(huì)比較容易分析它的實(shí)質(zhì)，排除很多細(xì)節(jié)的干擾。

輸入是一幅圖，輸出是目標(biāo)的分割結(jié)果。繼續(xù)簡(jiǎn)化就是，一幅圖，編碼，或者說降采樣，然后解碼，也就是升采樣，然后輸出一個(gè)分割結(jié)果。根據(jù)結(jié)果和真實(shí)分割的差異，反向傳播來訓(xùn)練這個(gè)分割網(wǎng)絡(luò)。

亞利桑那州立大學(xué)周縱葦：研習(xí) U-Net ——現(xiàn)有的分割網(wǎng)絡(luò)創(chuàng)新 | AI 研習(xí)社74期大講堂

我們可以說，U-Net 里面最精彩的部分就是這三部分：

下采樣
上采樣
skip connection

這就是在我眼中的大部分分割網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。對(duì)于這個(gè)拓?fù)浣Y(jié)構(gòu)，一個(gè)非常廣義的問題就是：

這個(gè)三年不動(dòng)的拓?fù)浣Y(jié)構(gòu)真的一點(diǎn)兒毛病都沒有嗎？

在這三年中，U-Net 得到的超過 2500 次的引用，F(xiàn)CN 接近 6000 次的引用，大家都在做什么樣的改進(jìn)呢？如果讓你在這個(gè)經(jīng)典的結(jié)構(gòu)基礎(chǔ)上改進(jìn)，你會(huì)去關(guān)注哪些點(diǎn)呢？

首先一個(gè)問題是：要多深合適？

這里我想強(qiáng)調(diào)的一點(diǎn)是，很多論文給出了他們建議的網(wǎng)絡(luò)結(jié)構(gòu)，其中包括非常多的細(xì)節(jié)，比如用什么卷積，用幾層，怎么降采樣，學(xué)習(xí)率多少，優(yōu)化器用什么，這些都是比較直觀的參數(shù)，其實(shí)這些在論文中給出參數(shù)并不見得是最好的，所以關(guān)注這些的意義不大，一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)，我們真正值得關(guān)注的是它的設(shè)計(jì)傳達(dá)了什么信息。

好，我們回來繼續(xù)討論到底需要多深的問題。其實(shí)這個(gè)是非常靈活的，涉及到的一個(gè)點(diǎn)就是特征提取器，U-Net 和 FCN 為什么成功，因?yàn)樗喈?dāng)于給了一個(gè)網(wǎng)絡(luò)的框架，具體用什么特征提取器，隨便。

關(guān)于到底要多深這個(gè)問題，還有一個(gè)引申的問題就是，降采樣對(duì)于分割網(wǎng)絡(luò)到底是不是必須的？問這個(gè)問題的原因就是，既然輸入和輸出都是相同大小的圖，為什么要折騰去降采樣一下再升采樣呢？

比較直接的回答當(dāng)然是降采樣的理論意義，我簡(jiǎn)單朗讀一下，它可以增加對(duì)輸入圖像的一些小擾動(dòng)的魯棒性，比如圖像平移，旋轉(zhuǎn)等，減少過擬合的風(fēng)險(xiǎn)，降低運(yùn)算量，和增加感受野的大小。升采樣的最大的作用其實(shí)就是把抽象的特征再還原解碼到原圖的尺寸，最終得到分割結(jié)果。

亞利桑那州立大學(xué)周縱葦：研習(xí) U-Net ——現(xiàn)有的分割網(wǎng)絡(luò)創(chuàng)新 | AI 研習(xí)社74期大講堂

這些理論的解釋都是有道理的，在我的理解中，對(duì)于特征提取階段，淺層結(jié)構(gòu)可以抓取圖像的一些簡(jiǎn)單的特征，比如邊界，顏色，而深層結(jié)構(gòu)因?yàn)楦惺芤按罅耍医?jīng)過的卷積操作多了，能抓取到圖像的一些說不清道不明的抽象特征?？傊?，淺有淺的側(cè)重，深有深的優(yōu)勢(shì)。

那么接下來是關(guān)鍵，我們心中的目標(biāo)很明確了，就是使用淺層和深層的特征！但是總不能訓(xùn)練這些個(gè) U-Net 吧，未免也太多了。好，要你來，你怎么來利用這些不同深度的，各自能抓取不同層次的特征的 U-Net？

我把圖打出來就很簡(jiǎn)單了。

亞利桑那州立大學(xué)周縱葦：研習(xí) U-Net ——現(xiàn)有的分割網(wǎng)絡(luò)創(chuàng)新 | AI 研習(xí)社74期大講堂

我們來看一看，這樣是不是把 1～4 層的 U-Net 全給連一起了。我們來看它們的子集，包含 1 層 U-Net，2 層 U-Net，以此類推。這個(gè)結(jié)構(gòu)的好處就是我不管你哪個(gè)深度的特征有效，我干脆都給你用上，讓網(wǎng)絡(luò)自己去學(xué)習(xí)不同深度的特征的重要性。第二個(gè)好處是它共享了一個(gè)特征提取器，也就是你不需要訓(xùn)練一堆 U-Net，而是只訓(xùn)練一個(gè) encoder，它的不同層次的特征由不同的 decoder 路徑來還原。這個(gè) encoder 依舊可以靈活的用各種不同的 backbone 來代替。

可惜的是，這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)是不能被訓(xùn)練的，原因在于，不會(huì)由任何梯度會(huì)經(jīng)過這個(gè)紅色區(qū)域，因?yàn)樗退?loss function 的地方是在反向傳播時(shí)是斷開的。

關(guān)于解決方案，我主要想到了兩個(gè)：

第一個(gè)是用 deep supervision，強(qiáng)行加梯度是吧，關(guān)于這個(gè)，我待會(huì)兒展開來說。
第二個(gè)解決方案是把結(jié)構(gòu)改成這樣子：

亞利桑那州立大學(xué)周縱葦：研習(xí) U-Net ——現(xiàn)有的分割網(wǎng)絡(luò)創(chuàng)新 | AI 研習(xí)社74期大講堂

這個(gè)結(jié)構(gòu)由 UC Berkeley 的團(tuán)隊(duì)提出，發(fā)表在今年的 CVPR 上，是一個(gè) oral 的論文，題目是"Deep Layer Aggregation"?，F(xiàn)在我們和上面那個(gè)結(jié)構(gòu)對(duì)比一下，不難發(fā)現(xiàn)這個(gè)結(jié)構(gòu)強(qiáng)行去掉了 U-Net 本身自帶的長(zhǎng)連接。取而代之的是一系列的短連接。

我們認(rèn)為，U-Net 中的長(zhǎng)連接是有必要的，它聯(lián)系了輸入圖像的很多信息，有助于還原降采樣所帶來的信息損失。

因此，我的建議是最好給出一個(gè)綜合長(zhǎng)連接和短連接的方案，也就是我們提出的 UNet++。

亞利桑那州立大學(xué)周縱葦：研習(xí) U-Net ——現(xiàn)有的分割網(wǎng)絡(luò)創(chuàng)新 | AI 研習(xí)社74期大講堂

對(duì)于這個(gè)主體結(jié)構(gòu)，我們?cè)谡撐闹薪o出了一些點(diǎn)評(píng)，說白了就是把原來空心的 U-Net 填滿了，優(yōu)勢(shì)是可以抓取不同層次的特征，將它們通過特征疊加的方式整合，不同層次的特征，或者說不同大小的感受野，對(duì)于大小不一的目標(biāo)對(duì)象的敏感度是不同的，比如，感受野大的特征，可以很容易的識(shí)別出大物體的，但是在實(shí)際分割中，大物體邊緣信息和小物體本身是很容易被深層網(wǎng)絡(luò)一次次的降采樣和一次次升采樣給弄丟的，這個(gè)時(shí)候就可能需要感受野小的特征來幫助。

另一個(gè)解讀就是如果你橫著看其中一層的特征疊加過程，就像一個(gè)去年很火的 DenseNet 的結(jié)構(gòu)，非常的巧合，原先的 U-Net，橫著看就很像是 Residual 的結(jié)構(gòu)，這個(gè)就很有意思了，UNet++對(duì)于 U-Net 分割效果提升可能和 DenseNet 對(duì)于 ResNet 分類效果的提升，原因如出一轍，因此，在解讀中我們也參考了 Dense Connection 的一些優(yōu)勢(shì)，比方說特征的再利用等等。

這些解讀都是很直觀的認(rèn)識(shí)，其實(shí)在深度學(xué)習(xí)里面，某某結(jié)構(gòu)效果優(yōu)于某某結(jié)構(gòu)的理由，或者你加這個(gè)操作比不加操作要好，很多時(shí)候是有玄學(xué)的味道在里頭，也有大量的工作也在探索深度網(wǎng)絡(luò)的可解釋性。關(guān)于 UNet++的主體結(jié)構(gòu)，我不想花時(shí)間贅述了。

接下來我要說的這部分，非常的有意思。剛剛在講這里的時(shí)候留了一個(gè)伏筆，說這個(gè)結(jié)構(gòu)在反向傳播的時(shí)候中間部分會(huì)收不到過來的梯度，如果只用最右邊的一個(gè) loss 來做的話。

剛才說了，一個(gè)非常直接的解決方案就是深監(jiān)督，也就是 deep supervision。當(dāng) UNet++配合上這樣一個(gè)填滿的 U-Net 結(jié)構(gòu)時(shí)，會(huì)帶來其中一個(gè)非常棒的優(yōu)勢(shì)——剪枝。

亞利桑那州立大學(xué)周縱葦：研習(xí) U-Net ——現(xiàn)有的分割網(wǎng)絡(luò)創(chuàng)新 | AI 研習(xí)社74期大講堂

這是因?yàn)?，在測(cè)試的階段，由于輸入的圖像只會(huì)前向傳播，扔掉這部分對(duì)前面的輸出完全沒有影響的，而在訓(xùn)練階段，因?yàn)榧扔星跋颍钟蟹聪騻鞑?，被剪掉的部分是?huì)幫助其他部分做權(quán)重更新的。在深監(jiān)督的過程中，每個(gè)子網(wǎng)絡(luò)的輸出都其實(shí)已經(jīng)是圖像的分割結(jié)果了，所以如果小的子網(wǎng)絡(luò)的輸出結(jié)果已經(jīng)足夠好了，我們可以隨意的剪掉那些多余的部分了。

這里我想問兩個(gè)問題：

為什么要在測(cè)試的時(shí)候剪枝，而不是直接拿剪完的 L1，L2，L3 訓(xùn)練？
怎么去決定剪多少？

【答案請(qǐng)回看視頻 00：34：10處， http://www.mooc.ai/open/course/549?=Leiphone】

讓我們看一組結(jié)果。

亞利桑那州立大學(xué)周縱葦：研習(xí) U-Net ——現(xiàn)有的分割網(wǎng)絡(luò)創(chuàng)新 | AI 研習(xí)社74期大講堂

先看看 L1～L4 的網(wǎng)絡(luò)參數(shù)量，差了好多，L1 只有 0.1M，而 L4 有 9M，也就是理論上如果 L1 的結(jié)果我是滿意的，那么模型可以被剪掉的參數(shù)達(dá)到 98.8%。不過根據(jù)我們的四個(gè)數(shù)據(jù)集，L1 的效果并不會(huì)那么好，因?yàn)樘珳\了嘛。但是其中有三個(gè)數(shù)據(jù)集顯示 L2 的結(jié)果和 L4 已經(jīng)非常接近了，也就是說對(duì)于這三個(gè)數(shù)據(jù)集，在測(cè)試階段，我們不需要用 9M 的網(wǎng)絡(luò)，用半 M 的網(wǎng)絡(luò)足夠了。

回想一下一開始我提出的問題，網(wǎng)絡(luò)需要多深合適，這幅圖是不是就一目了然。網(wǎng)絡(luò)的深度和數(shù)據(jù)集的難度是有關(guān)系的，這四個(gè)數(shù)據(jù)集當(dāng)中，第二個(gè)，也就是息肉分割是最難的，大家可以看到縱坐標(biāo)，它代表分割的評(píng)價(jià)指標(biāo)，越大越好，其他都能達(dá)到挺高的，但是唯獨(dú)息肉分割只有在 30 左右，對(duì)于比較難的數(shù)據(jù)集，可以看到網(wǎng)絡(luò)越深，它的分割結(jié)果是在不斷上升的。對(duì)于大多數(shù)比較簡(jiǎn)單的分割問題，其實(shí)并不需要非常深，非常大的網(wǎng)絡(luò)就可以達(dá)到很不錯(cuò)的精度了。

橫坐標(biāo)代表的是在測(cè)試階段，單顯卡 12G 的 TITAN X (Pascal) 下，分割一萬張圖需要的時(shí)間。我們可以看到不同的模型大小，測(cè)試的時(shí)間差好多。如果比較 L2 和 L4 的話，就差了三倍之多。

亞利桑那州立大學(xué)周縱葦：研習(xí) U-Net ——現(xiàn)有的分割網(wǎng)絡(luò)創(chuàng)新 | AI 研習(xí)社74期大講堂

對(duì)于測(cè)試的速度，用這一幅圖會(huì)更清晰。我們統(tǒng)計(jì)了用不同的模型，1 秒鐘可以分割多少的圖。如果用 L2 來代替 L4 的話，速度確實(shí)能提升三倍。

剪枝應(yīng)用最多的就是在移動(dòng)手機(jī)端了，根據(jù)模型的參數(shù)量，如果 L2 得到的效果和 L4 相近，模型的內(nèi)存可以省 18 倍。還是非?？捎^的數(shù)目。

關(guān)于剪枝的這部分我認(rèn)為是對(duì)原先的 U-Net 的一個(gè)很大的改觀，原來的結(jié)構(gòu)過于刻板，并且沒有很好的利用不用層級(jí)的特征。

簡(jiǎn)單的總結(jié)一下，UNet++的第一個(gè)優(yōu)勢(shì)就是精度的提升，這個(gè)應(yīng)該它整合了不同層次的特征所帶來的，第二個(gè)是靈活的網(wǎng)絡(luò)結(jié)構(gòu)配合深監(jiān)督，讓參數(shù)量巨大的深度網(wǎng)絡(luò)在可接受的精度范圍內(nèi)大幅度的縮減參數(shù)量。

最后給大家分享一下我們工作成果的網(wǎng)絡(luò)鏈接：

論文：https://arxiv.org/abs/1807.10165

代碼：https://github.com/MrGiovanni/Nested-UNet

微博：@MrGiovanni

我今天的分享就到此為止，謝謝大家！

以上就是本期嘉賓的全部分享內(nèi)容。更多公開課視頻請(qǐng)到雷鋒網(wǎng)AI研習(xí)社社區(qū)（https://club.leiphone.com/）觀看。關(guān)注微信公眾號(hào)：AI 研習(xí)社（okweiwu），可獲取最新公開課直播時(shí)間預(yù)告。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

11人收藏

相關(guān)文章

黃善清

編輯

發(fā)私信

當(dāng)月熱門文章