0
本文作者: 汪思穎 | 2018-03-14 09:47 |
雷鋒網(wǎng) AI 研習(xí)社按,DeepLab 是一種用于圖像語(yǔ)義分割的頂尖深度學(xué)習(xí)模型,其目標(biāo)是將語(yǔ)義標(biāo)簽(如人、狗、貓等)分配給輸入圖像的每個(gè)像素。經(jīng)過(guò)三年左右的發(fā)展,目前 DeepLab 具有如下功能:
DeepLabv1:結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò),使用空洞卷積(atrous convolution)進(jìn)行語(yǔ)義分割
DeepLabv2:基于 DeepLabv1 的優(yōu)化,使用空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP)對(duì)物體進(jìn)行有效的分割
DeepLabv3:采用多比例的帶孔卷積級(jí)聯(lián)或并行來(lái)捕獲多尺度背景,基于圖像特征優(yōu)化 ASPP
DeepLabv3+ :對(duì) DeepLabv3 的擴(kuò)展,包括一個(gè)簡(jiǎn)單而高效的改善分割結(jié)果的解碼器模塊
目前來(lái)說(shuō),在圖像語(yǔ)義分割上,DeepLabv3+ 已是業(yè)內(nèi)頂尖水準(zhǔn)。就在近日,谷歌宣布開(kāi)源 DeepLabv3+,語(yǔ)義分割研究黨的福利來(lái)啦。
雷鋒網(wǎng) AI 研習(xí)社將相關(guān)信息編譯整理如下:
語(yǔ)義圖像分割(Semantic Image Segmentation)是為圖像中的每個(gè)像素分配一個(gè)語(yǔ)義標(biāo)簽(如「路」、「天」、「人」、「狗」)的任務(wù),能應(yīng)用于新的應(yīng)用程序中,例如基于 Pixel 2 和 Pixel 2 XL 智能手機(jī)肖像模式產(chǎn)生的淺景深效果,手機(jī)實(shí)時(shí)視頻分割。分配這些語(yǔ)義標(biāo)簽需要精確定位物體的輪廓,因此比其他視覺(jué)實(shí)體識(shí)別任務(wù)(例如圖像分類(lèi)或邊框檢測(cè))有著更嚴(yán)格的定位精度要求。
今天,我們很高興地宣布將谷歌目前最新的、性能最好的語(yǔ)義圖像分割模型——DeepLab-v3+開(kāi)源(在 TensorFlow 中實(shí)現(xiàn))。這一次的發(fā)布包含建造在一個(gè)強(qiáng)大的卷積神經(jīng)網(wǎng)絡(luò)(CNN)主干架構(gòu)之上的 DeepLab-v3+ 模型,用于服務(wù)器端部署。
此外,我們還公開(kāi)了 Tensorflow 模型訓(xùn)練和評(píng)估代碼,還有已經(jīng)在 Pascal VOC 2012 和 Cityscapes 語(yǔ)義分割任務(wù)上預(yù)訓(xùn)練過(guò)的模型。
自從 3 年前研究出 DeepLab 模型,我們不斷改進(jìn) CNN 的特征提取器,實(shí)現(xiàn)更好的對(duì)象尺度建模,對(duì)上下文信息的進(jìn)行更好的吸收,改進(jìn)訓(xùn)練程序,應(yīng)用越來(lái)越強(qiáng)大的硬件和軟件,這些使 DeepLab-v2 和 DeepLab-v3 得到不斷改進(jìn)。
在使用 DeepLab-v3+時(shí),我們可以通過(guò)添加一個(gè)簡(jiǎn)單但有效的解碼器模塊來(lái)擴(kuò)展 Deeplabv3,從而改善分割結(jié)果,特別是用于對(duì)象邊界檢測(cè)時(shí)。我們進(jìn)一步將深度可分離的卷積應(yīng)用于空洞空間金字塔池化(atrous spatial pyramid pooling)和解碼器模塊,從而形成了一個(gè)用于語(yǔ)義分割的更快速、更強(qiáng)大的編——解碼器網(wǎng)絡(luò)。
基于卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的現(xiàn)代語(yǔ)義圖像分割系統(tǒng)已經(jīng)達(dá)到了精確的水平,這在五年前是難以想象的,這要?dú)w功于方法、硬件和數(shù)據(jù)集的發(fā)展。
我們希望與廣大的研究社群分享我們的系統(tǒng),這樣一來(lái),學(xué)術(shù)界和工業(yè)界的團(tuán)體能夠更容易地復(fù)制和改進(jìn)現(xiàn)有系統(tǒng),在新的數(shù)據(jù)集上訓(xùn)練模型,并為這項(xiàng)技術(shù)設(shè)想新的應(yīng)用。
GitHub 地址:https://github.com/tensorflow/models/tree/master/research/deeplab
相關(guān)論文:
Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
Xception: Deep Learning with Depthwise Separable Convolutions
Deformable Convolutional Networks — COCO Detection and Segmentation Challenge 2017 Entry
Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs
Rethinking Atrous Convolution for Semantic Image Segmentation
雷鋒網(wǎng) AI 研習(xí)社編譯整理。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。