丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊文
發(fā)送

0

浙大博士生劉漢唐:帶你回顧圖像分割的經(jīng)典算法 | 分享總結(jié)

本文作者: 楊文 2018-01-30 20:48
導(dǎo)語(yǔ):圖像分割的經(jīng)典算法有哪些?

雷鋒網(wǎng)AI科技評(píng)論按:圖像語(yǔ)義分割是 AI 領(lǐng)域中一個(gè)重要的分支,是機(jī)器視覺(jué)技術(shù)中關(guān)于圖像理解的重要一環(huán)。近年的自動(dòng)駕駛技術(shù)中,也需要用到這種技術(shù)。車(chē)載攝像頭探查到圖像,后臺(tái)計(jì)算機(jī)可以自動(dòng)將圖像分割歸類(lèi),以避讓行人和車(chē)輛等障礙。隨著近些年深度學(xué)習(xí)的火熱,使得圖像分割有了巨大的發(fā)展,本文為大家介紹深度學(xué)習(xí)中圖像分割的經(jīng)典算法。

在近期雷鋒網(wǎng) GAIR 大講堂上,來(lái)自浙江大學(xué)的在讀博士生劉漢唐為等候在直播間的同學(xué)們做了一場(chǎng)主題為「圖像分割的經(jīng)典算法」的技術(shù)分享,本文根據(jù)直播分享內(nèi)容整理而成,同學(xué)們?nèi)绻麑?duì)嘉賓所講的內(nèi)容感興趣還可以在 AI 慕課學(xué)院觀看直播回放。(技術(shù)細(xì)節(jié)推薦觀看視頻回放

劉漢唐,浙江大學(xué)計(jì)算機(jī)系博士生在讀,阿里巴巴 iDST 實(shí)習(xí)生。研究方向是計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)。個(gè)人公眾號(hào)是:賈維斯的日常(jarvisdaily)。

分享提綱

  1. 圖像分割的問(wèn)題定義,以及在實(shí)際場(chǎng)景中的應(yīng)用樣例

  2. 全卷積網(wǎng)絡(luò)

  3. 雙線性上采樣

  4. 特征金字塔

  5. Mask-RCNN

大家好,我是浙江大學(xué)在讀博士生劉漢唐,目前在阿里巴巴 iDST 實(shí)習(xí)。接下來(lái)的分享首先會(huì)為大家介紹圖像分割具體是做什么的,圖像分割有哪些應(yīng)用場(chǎng)景以及做圖像分割實(shí)驗(yàn)經(jīng)常用到的幾個(gè)數(shù)據(jù)集。

最后再講解圖像分割的幾個(gè)方法。分為兩個(gè)部分,第一部分是傳統(tǒng)視覺(jué)的圖分割算法,雖然現(xiàn)在很少用,但自認(rèn)為算法比較優(yōu)美。第二部分是深度學(xué)習(xí)算法,會(huì)介紹最近幾年流行的經(jīng)典技巧。

什么是圖像分割?

圖像分割就是預(yù)測(cè)圖像中每一個(gè)像素所屬的類(lèi)別或者物體。圖像分割有兩個(gè)子問(wèn)題,一個(gè)是只預(yù)測(cè)類(lèi)別層面的分割,對(duì)每個(gè)像素標(biāo)出一個(gè)位置。第二個(gè)是區(qū)分不同物體的個(gè)體。

浙大博士生劉漢唐:帶你回顧圖像分割的經(jīng)典算法 | 分享總結(jié)

應(yīng)用場(chǎng)景,比如自動(dòng)駕駛,3D 地圖重建,美化圖片,人臉建模等等。

最常用的數(shù)據(jù)集

主要介紹三個(gè):Pascal VOC;CityScapes;MSCOCO。

第一個(gè)是 Pascal VOC 數(shù)據(jù)集

浙大博士生劉漢唐:帶你回顧圖像分割的經(jīng)典算法 | 分享總結(jié)

這是一個(gè)比較老牌的數(shù)據(jù)集,它提供 20 個(gè)類(lèi)別,包括,人,車(chē)等。有 6929 張標(biāo)注圖片,提供了類(lèi)別層面的標(biāo)注和個(gè)體層面的標(biāo)注,也就是說(shuō)既可以做語(yǔ)義分割,只區(qū)分是不是車(chē);也可以做個(gè)體分割,區(qū)分有幾輛車(chē),把不同的車(chē)標(biāo)記出來(lái)。

第二個(gè)是CityScapes數(shù)據(jù)集

浙大博士生劉漢唐:帶你回顧圖像分割的經(jīng)典算法 | 分享總結(jié)

主要面向道路駕駛場(chǎng)景,它有 30 個(gè)精細(xì)的類(lèi)別。其中有 5000 張圖片進(jìn)行了精細(xì)標(biāo)注,精確到像素級(jí)別。還有 20000 張圖片有粗糙的標(biāo)注。它也可以提供語(yǔ)義層面分割和個(gè)體層面分割。

第三個(gè)是MS COCO數(shù)據(jù)集

浙大博士生劉漢唐:帶你回顧圖像分割的經(jīng)典算法 | 分享總結(jié)

這是目前為止有語(yǔ)義分割的最大數(shù)據(jù)集,提供的類(lèi)別有 80 類(lèi),有超過(guò) 33 萬(wàn)張圖片,其中 20 萬(wàn)張有標(biāo)注,整個(gè)數(shù)據(jù)集中個(gè)體的數(shù)目超過(guò) 150 萬(wàn)個(gè),最新的一些論文都會(huì)在 MSCOCO 數(shù)據(jù)集上做實(shí)驗(yàn),因?yàn)樗碾y度最大,挑戰(zhàn)新最高。

傳統(tǒng)的圖切割

圖切割就是移除一些邊,使得兩個(gè)子圖不相連;圖切割的目標(biāo)是,找到一個(gè)切割,使得移除邊的和權(quán)重最小。

浙大博士生劉漢唐:帶你回顧圖像分割的經(jīng)典算法 | 分享總結(jié)

圖切割的優(yōu)點(diǎn)和缺點(diǎn)

優(yōu)點(diǎn)是分割效果還不錯(cuò),并且是一種普適性的框架 ,適合各種特征。缺點(diǎn)是時(shí)間復(fù)雜度和空間復(fù)雜度較高,需要事先選取分割塊兒的數(shù)目。

圖切割的失敗案列

浙大博士生劉漢唐:帶你回顧圖像分割的經(jīng)典算法 | 分享總結(jié)

為了克服這個(gè)失敗,有一篇論文提出了 Normalized Cut。它是在圖分割中加入權(quán)重參數(shù) Volume。Volume(A) 是 A 中所有邊的權(quán)重之和。這種方法平衡了每一個(gè)子圖的大小。

浙大博士生劉漢唐:帶你回顧圖像分割的經(jīng)典算法 | 分享總結(jié)

深度學(xué)習(xí)算法

第一篇比較成功用神經(jīng)網(wǎng)絡(luò)做圖像分割的論文是 Fully Convolutional Networks (以下簡(jiǎn)稱為 FCN)。

傳統(tǒng)神經(jīng)網(wǎng)絡(luò)做分類(lèi)的步驟是,首先是一個(gè)圖像進(jìn)來(lái)之后經(jīng)過(guò)多層卷積得到降維之后的特征圖,這個(gè)特征圖經(jīng)過(guò)全連接層變成一個(gè)分類(lèi)器,最后輸出一個(gè)類(lèi)別的向量,這就是分類(lèi)的結(jié)果。

而 FCN 是把所有的全連接層換成卷基層,原來(lái)只能輸出一個(gè)類(lèi)別分類(lèi)的網(wǎng)絡(luò)可以在特征圖的每一個(gè)像素輸出一個(gè)分類(lèi)結(jié)果。這樣就把分類(lèi)的向量,變成了一個(gè)分類(lèi)的特征圖。

浙大博士生劉漢唐:帶你回顧圖像分割的經(jīng)典算法 | 分享總結(jié)

為了能讓分類(lèi)的特征圖恢復(fù)到原圖的大小,采用了上采樣層。具體細(xì)節(jié)可觀看視頻回放。

FCN的結(jié)構(gòu)圖

浙大博士生劉漢唐:帶你回顧圖像分割的經(jīng)典算法 | 分享總結(jié)

下面介紹一下怎么進(jìn)行圖片放大操作的。

這里有兩個(gè)概念,第一個(gè)概念叫反卷積層(Deconvolution);第二個(gè)概念叫雙線性差值上采樣(Bilinear Upsampling)。

這里的「反卷積」其實(shí)不是真正的卷積的逆運(yùn)算,用 Transposed Convolution 代替比較合適,但原論文中用的是 Deconvolution,我們下面還是用這個(gè)詞,它可以等效于普通卷積。它的主要目的就是實(shí)現(xiàn)上采樣。

浙大博士生劉漢唐:帶你回顧圖像分割的經(jīng)典算法 | 分享總結(jié)

反卷積具體是怎么計(jì)算的,詳細(xì)過(guò)程可到AI慕課學(xué)院免費(fèi)觀看視頻回放。

下面講一下Padding和Stride。

Padding和Stride實(shí)際指的是普通卷積,而不是反卷積等效的普通卷積。

浙大博士生劉漢唐:帶你回顧圖像分割的經(jīng)典算法 | 分享總結(jié)

雙線性上采樣差

浙大博士生劉漢唐:帶你回顧圖像分割的經(jīng)典算法 | 分享總結(jié)

雙線性上采樣差值的三個(gè)用途:用作初始化反卷積的權(quán)重;不用反卷積,使用上卷積+卷積;只使用上采樣。

下面介紹膨脹卷積或帶洞卷積(Dilated Convolution )。

它的用途可以使特征圖視野變大,但不增加計(jì)算量,對(duì)于圖像分割的好處,更利于提取全局信息,這樣就使得分割準(zhǔn)確率增加很多。

浙大博士生劉漢唐:帶你回顧圖像分割的經(jīng)典算法 | 分享總結(jié)

特征金字塔(Feature Pyramid)

有以下幾種特征金字塔

浙大博士生劉漢唐:帶你回顧圖像分割的經(jīng)典算法 | 分享總結(jié)

特征金字塔網(wǎng)絡(luò)

浙大博士生劉漢唐:帶你回顧圖像分割的經(jīng)典算法 | 分享總結(jié)

Pyramid Pooling 

浙大博士生劉漢唐:帶你回顧圖像分割的經(jīng)典算法 | 分享總結(jié)

前面的是在不同的尺度上提取特征,而這個(gè)是把特征提取之后pooling到不同的大小。

Mask-RCNN的特點(diǎn)

浙大博士生劉漢唐:帶你回顧圖像分割的經(jīng)典算法 | 分享總結(jié)

第一個(gè)特點(diǎn)它是多分支輸出的。它同時(shí)輸出物體的類(lèi)別,bounding box和Mask。

第二個(gè)特點(diǎn)是它使用了Binary Mask。之前神經(jīng)網(wǎng)絡(luò)都是使用多類(lèi)Mask,而它只需要判斷物體在哪個(gè)地方。

最后是RoiAlign層。能比較精確地把物體的位置對(duì)應(yīng)到特征圖的位置上。

具體講解細(xì)節(jié)請(qǐng)觀看免費(fèi)的直播回放視頻

Rol Pooling 與Roi Align的比較

浙大博士生劉漢唐:帶你回顧圖像分割的經(jīng)典算法 | 分享總結(jié)

浙大博士生劉漢唐:帶你回顧圖像分割的經(jīng)典算法 | 分享總結(jié)

雷鋒網(wǎng)AI 慕課學(xué)院提供本次直播回放視頻,點(diǎn)擊鏈接直達(dá):http://www.mooc.ai/course/414/learn#lesson/2266。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

浙大博士生劉漢唐:帶你回顧圖像分割的經(jīng)典算法 | 分享總結(jié)

分享:
相關(guān)文章

編輯&記者

AI科技評(píng)論員,微信:yeohandwin
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)