丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給三川
發(fā)送

0

三年來,CNN在圖像分割領(lǐng)域經(jīng)歷了怎樣的技術(shù)變革?

本文作者: 三川 2017-04-27 16:26
導(dǎo)語:CNN 圖像分割技術(shù)迭代、發(fā)展簡史。

CNN 遠(yuǎn)遠(yuǎn)不止于處理分類問題。

這篇文章中,我們會(huì)一起來看在圖像實(shí)例分割領(lǐng)域,CNN 的發(fā)展簡史:它可被如何使用,以得到驚人的結(jié)果。

據(jù)雷鋒網(wǎng)了解,在 2012 年,Alex Krizhevsky, Geoff Hinton, and Ilya Sutskever 贏得 ImageNet 挑戰(zhàn)賽堪稱是 CNN 發(fā)展史上的里程碑,自那之后,CNN 就成了圖像分類的黃金標(biāo)準(zhǔn),并且性能不斷提升?,F(xiàn)在,它已經(jīng)在 ImageNet 挑戰(zhàn)賽上有了超人類的表現(xiàn)。

三年來,CNN在圖像分割領(lǐng)域經(jīng)歷了怎樣的技術(shù)變革?

自 2015 年起,CNN 在 ImageNet 的錯(cuò)誤率已低于人類

雖然這很令人激動(dòng),但相比人類高度復(fù)雜、多樣化的視覺理解系統(tǒng),圖像識(shí)別要簡單得多。

在圖像識(shí)別任務(wù)中,一般圖中央僅有一個(gè)需要識(shí)別的物體,而任務(wù)便是判斷該圖像是什么。但當(dāng)我們用眼睛觀察周圍的世界時(shí),我們進(jìn)行的是遠(yuǎn)遠(yuǎn)更復(fù)雜的任務(wù)。

三年來,CNN在圖像分割領(lǐng)域經(jīng)歷了怎樣的技術(shù)變革?

我們眼中的視野高度復(fù)雜,有許多個(gè)重疊、相互遮擋的物體,有不同的背景;我們的大腦不僅對這些物體進(jìn)行分類,還會(huì)識(shí)別它們的邊緣輪廓、差異、以及相互之間的關(guān)系。

三年來,CNN在圖像分割領(lǐng)域經(jīng)歷了怎樣的技術(shù)變革?

問題來了:CNN 是否“ hold 住”這樣復(fù)雜的任務(wù)?換句話說,給定一個(gè)十分復(fù)雜的圖像,我們是否能用 CNN 來識(shí)別其中的不同物體、它們的邊緣輪廓?正如 Ross Girshick 和他的同事最近幾年的研究所展示:這是完全可以實(shí)現(xiàn)的。

內(nèi)容簡介

本文將講述基于 CNN 的物體檢測、分割主流技術(shù)背后的直覺性思路,并看看它們是如何從一種執(zhí)行方式進(jìn)化到另一種。其中,我們將覆蓋 R-CNN (Regional CNN)、該類問題的最初 CNN 解決方案、 Fast R-CNN 以及 Faster R-CNN 等話題。文末將討論 Facebook 研究團(tuán)隊(duì)最近搞出來的 Mask R-CNN,它把物體檢測技術(shù)拓展到提供像素級(jí)別的分割。

這是本文涉及的論文:

R-CNN: https://arxiv.org/abs/1311.2524

Fast R-CNN: https://arxiv.org/abs/1504.08083

Faster R-CNN: https://arxiv.org/abs/1506.01497

Mask R-CNN: https://arxiv.org/abs/1703.06870

2014: R-CNN

三年來,CNN在圖像分割領(lǐng)域經(jīng)歷了怎樣的技術(shù)變革?

R-CNN 是將 CNN 用于物體檢測的早期應(yīng)用。

受到深度學(xué)習(xí)之父 Geoffrey Hinton 實(shí)驗(yàn)室研究的啟發(fā),加州伯克利教授 Jitendra Malik 帶領(lǐng)的一只小團(tuán)隊(duì)提出了一個(gè)今天看來無可回避的問題:

在什么程度上 Krizhevsky et. al 的研究結(jié)果可泛化到物體識(shí)別?

如同其名稱,物體識(shí)別是在圖像中找出不同物體、并對其分類的任務(wù)(如上圖)。該團(tuán)隊(duì)包括 Ross Girshick、Jeff Donahue 和 Trevor Darrel,他們發(fā)現(xiàn)該問題可通過在 PASCAL VOC 挑戰(zhàn)上進(jìn)行測試,用 Krizhevsky 的結(jié)果來解決。PASCAL VOC 是一個(gè)類似于 ImageNet 的流行物體識(shí)別挑戰(zhàn)。

他們寫到:

該論文首次展示出,與更簡單的、基于 HOG 特征的其他系統(tǒng)相比, CNN 在 PASCAL VOC 上有非常優(yōu)越的物體識(shí)別表現(xiàn)。

現(xiàn)在,我們來看一看他們的架構(gòu),Regions With CNNs (R-CNN) ,是如何工作的。

理解 R-CNN

R-CNN 的目標(biāo)是:導(dǎo)入一張圖片,通過方框正確識(shí)別主要物體在圖像的哪個(gè)地方。

輸入:圖像

輸出:方框+每個(gè)物體的標(biāo)簽

但怎么知道這些方框應(yīng)該在哪里呢?R-CNN 的處理方式,和我們直覺性的方式很像——在圖像中搞出一大堆方框,看看是否有任何一個(gè)與某個(gè)物體重疊。

三年來,CNN在圖像分割領(lǐng)域經(jīng)歷了怎樣的技術(shù)變革?

生成這些邊框、或者說是推薦局域,R-CNN 采用的是一項(xiàng)名為 Selective Search 的流程。在高層級(jí),Selective Search(如上圖)通過不同尺寸的窗口來查看圖像。對于每一個(gè)尺寸,它通過紋理、色彩或密度把相鄰像素劃為一組,來進(jìn)行物體識(shí)別。


三年來,CNN在圖像分割領(lǐng)域經(jīng)歷了怎樣的技術(shù)變革?

如上圖,當(dāng)邊框方案生成之后,R-CNN 把選取區(qū)域變形為標(biāo)準(zhǔn)的方形,并將之喂給改良版的 AlexNet(ImageNet 2012 的冠軍方案,它啟發(fā)了R-CNN )。

在 CNN 的最后一層,R-CNN 加入了一個(gè)支持向量機(jī),它要做的事很簡單:對這是否是一個(gè)物體進(jìn)行分類,如果是,是什么物體。這便是上圖中的第四步。

對邊框進(jìn)行改進(jìn)

現(xiàn)在,既然已經(jīng)找到了方框中的物體,我們是否能縮小邊框,讓它更符合物體的三維尺寸?答案是肯定的,這是 R-CNN 的最后一步。R-CNN 在推薦區(qū)域上運(yùn)行一個(gè)簡單的線性回歸,生成更緊的邊框坐標(biāo)以得到最終結(jié)果。

這是該回歸模型的輸入和輸出:

輸入:對應(yīng)物體的圖像子區(qū)域

輸出:針對該物體的新邊框系統(tǒng)

概括下來,R-CNN 只是以下這幾個(gè)步驟:

生成對邊框的推薦

在預(yù)訓(xùn)練的 AlexNet 上運(yùn)行方框里的物體。用支持向量機(jī)來看邊框里的物體是什么。

在線性回歸模型上跑該邊框,在物體分類之后輸出更緊的邊框的坐標(biāo)。

2015: Fast R-CNN

它加速、簡化了 R-CNN。

R-CNN 的效果非常好,但出于以下幾個(gè)原因,它運(yùn)行起來特別慢:

  • 對于每一個(gè)圖像的每一個(gè)推薦區(qū)域,它都需要一個(gè) CNN (AlexNet) 的 forward pass。這意味著每個(gè)圖像就需要約 2000 個(gè) forward pass。

  • 它必須分來訓(xùn)練三個(gè)不同的模型——生成圖像特征的 CNN,預(yù)測類別的分類器以及收緊邊框的回歸模型。這使得訓(xùn)練流水線變得特別困難。

在 2015 年,R-CNN 的第一作者 Ross Girshick 解決了上述兩個(gè)問題,導(dǎo)致了本簡史中第二個(gè)算法的誕生: Fast R-CNN

三年來,CNN在圖像分割領(lǐng)域經(jīng)歷了怎樣的技術(shù)變革?

Ross Girshick

Fast R-CNN 特性

1. RoI (Region of Interest) Pooling

對于 CNN 的 forward pass,Girshick 意識(shí)到對于每個(gè)圖像,許多推薦區(qū)域會(huì)不可避免的重疊,同樣的 CNN 運(yùn)算會(huì)一遍遍重復(fù) (~2000 次)。他的思路很簡單:為什么不能在每一個(gè)圖像上只運(yùn)行一次 CNN,并找到一種在 ~2000 個(gè)推薦里共享計(jì)算的方式?


借助名為 RoIPool 的技術(shù),F(xiàn)ast R-CNN 實(shí)現(xiàn)了該思路。在其核心,RoIPool 會(huì)對圖像的所有子區(qū)域共享 CNN 的forward pass。上圖便是示例,注意每個(gè)區(qū)域的 CNN 特征,是怎么通過選擇 CNN 特征圖的相應(yīng)區(qū)域來獲取的。然后,每個(gè)區(qū)域的特征被池化(“pooled”,通常使用 max pooling)。因此原始圖像只需要計(jì)算一遍,而不是 2000 遍。

2. 把不同模型整合為一個(gè)網(wǎng)絡(luò)

三年來,CNN在圖像分割領(lǐng)域經(jīng)歷了怎樣的技術(shù)變革?

第二項(xiàng)特性是在一個(gè)模型里聯(lián)合訓(xùn)練 CNN、分類器和邊框回歸量。而此前,提取圖像特征要用 CNN,分類要用支持向量機(jī),收緊邊框要用回歸。Fast R-CNN 用一個(gè)單個(gè)的網(wǎng)絡(luò)完成這三項(xiàng)任務(wù)。

至于這是如何實(shí)現(xiàn)的,請看上圖。Fast R-CNN 在 CNN 之上添加一個(gè) softmax 層輸出分類,來代替支持向量機(jī)。添加一個(gè)與 softmax  平行的線性回歸層,來輸出邊框坐標(biāo)。這種方式,所有需要輸出都通過單個(gè)神經(jīng)網(wǎng)絡(luò)得到。這是模型整體的輸入和輸出:

輸入:有區(qū)域推薦的圖像

輸出:每個(gè)區(qū)域的物體識(shí)別,收緊的邊框

2016:Faster R-CNN 

名字很直白,它加速了選區(qū)推薦。

即便有上文所提到的優(yōu)點(diǎn),F(xiàn)ast R-CNN 仍然有一個(gè)重大瓶頸:選區(qū)推薦器。正如我們看到的,檢測物體位置的第一步,是生成一系列候選邊框來進(jìn)行測試。雷鋒網(wǎng)了解到,在 Fast R-CNN 里,這些推薦通過 Selective Search 生成。后者是一個(gè)相當(dāng)慢的過程,成為系統(tǒng)整體的瓶頸。

在 2015 年,微軟的孫劍、任少卿、何凱明、Ross Girshick 找到了一個(gè)讓推薦步驟幾乎不需要成本的辦法,這通過被他們稱之為 Faster R-CNN 的架構(gòu)來實(shí)現(xiàn)。

三年來,CNN在圖像分割領(lǐng)域經(jīng)歷了怎樣的技術(shù)變革?

孫劍

Faster R-CNN 背后的思路是:既然選區(qū)推薦取決于 CNN forward pass 已經(jīng)計(jì)算出來的圖像特征,那么,為什么不對區(qū)域推薦重復(fù)利用這些 CNN 結(jié)果,來代替運(yùn)行一個(gè)單獨(dú)的 selective search 算法?

這便是 Faster R-CNN 更快的原因。

三年來,CNN在圖像分割領(lǐng)域經(jīng)歷了怎樣的技術(shù)變革?

上圖中,你可以看到單個(gè) CNN 是如何同時(shí)進(jìn)行選區(qū)推薦和分類。利用這種方式,只有一個(gè) CNN 需要被訓(xùn)練,我們也幾乎免費(fèi)得到了選區(qū)推薦。作者們寫到:

“我們的觀察是:基于區(qū)域的檢測器所使用的卷積特征圖,比如 Faster R-CNN,也能被用來生成選區(qū)推薦?!?/p>

這是模型的輸入和輸出:

輸入:圖像(選區(qū)推薦并不需要)

輸出:分類、圖中物體的邊框坐標(biāo)。

選區(qū)是如何生成的

我們一起多花幾分鐘,看看 Faster R-CNN 是如何從 CNN 特征里生成選區(qū)推薦的。Faster R-CNN 在 CNN 特征之上添加了完全卷積網(wǎng)絡(luò)(Fully Convolutional Network ),以生成 Region Proposal Network。

三年來,CNN在圖像分割領(lǐng)域經(jīng)歷了怎樣的技術(shù)變革?

Region Proposal Network 通過在 CNN 特征圖上傳遞滑窗(sliding window)來運(yùn)作,在每個(gè)窗口輸出 K 潛在邊框和對每個(gè)邊框的評(píng)估分值。這些 K 邊框代表了什么呢?

三年來,CNN在圖像分割領(lǐng)域經(jīng)歷了怎樣的技術(shù)變革?

直覺上,我們知道圖像中的物體應(yīng)該符合特定的常用長寬比例和尺寸,比如類似于人體形狀的矩形選框。類似的,我們知道很窄的選框并不會(huì)太多。于是我們創(chuàng)造出 anchor boxes ——K 常用長寬比例,對于每一個(gè) anchor boxe,我們輸出選框以及圖像中的每個(gè)位置的分值。

有了這些 anchor boxes,我們看看 Region Proposal Network 的輸入、輸出。

輸入: CNN 特征圖

輸出:每個(gè) anchor 對應(yīng)一個(gè)選框。一個(gè)分值,用來表示選框內(nèi)圖像是否為物體。

之后把每個(gè)可能是物體的選框?qū)?Fast R-CNN,生成分類和收緊的選框。

2017: Mask R-CNN 

把 Faster R-CNN 拓展到像素級(jí)的圖像分割。

三年來,CNN在圖像分割領(lǐng)域經(jīng)歷了怎樣的技術(shù)變革?

到現(xiàn)在,我們已經(jīng)看到了多種利用 CNN 特征、利用選框來鎖定圖像中不同物體的有趣方式。我們是否能夠?qū)⑦@些技術(shù)進(jìn)一步,去定位物體的每一個(gè)像素呢?

該問題便是圖像分割(image segmentation)。對此,F(xiàn)acebook AI 的何凱明、Girshick 等研究人員開發(fā)出了一個(gè)名為 Mask R-CNN 的架構(gòu)。


三年來,CNN在圖像分割領(lǐng)域經(jīng)歷了怎樣的技術(shù)變革?

與 Fast R-CNN、Faster R-CNN 一樣,Mask R-CNN 的底層邏輯也很直接:Faster R-CNN 對物體識(shí)別效果這么好,我們能夠?qū)⒅當(dāng)U展到像素級(jí)別的分割?


三年來,CNN在圖像分割領(lǐng)域經(jīng)歷了怎樣的技術(shù)變革?

Mask R-CNN 通過向 Faster R-CNN 加入一個(gè)分支來實(shí)現(xiàn)這一點(diǎn),該分支輸出一個(gè)二元的 mask,指示某像素是否是物體的一部分。這分支(圖中白色部分)說白了就是一個(gè) CNN 特征圖上的全卷積網(wǎng)絡(luò)。這是它的輸入、輸出:

輸入:CNN 特征圖

輸出:矩陣,屬于物體的像素在矩陣內(nèi)用 1 表示,否則用 0 表示(這就是二元 Mask)。

為使 Mask R-CNN 如預(yù)期的運(yùn)行,作者們做了一個(gè)小改變:RoiAlign,或者說 Realigning RoIPool。

RoiAlign

當(dāng)不加修改地運(yùn)行于原始版本的 Faster R-CNN,RoIPool 選擇的特征圖區(qū)域,會(huì)與原圖中的區(qū)域有輕微排列出入。而圖像分割需要像素級(jí)別的精確度。于是,作者們巧妙地對 RoIPool 進(jìn)行調(diào)整,使之更精確得排列對齊,這便是 RoIAlign。

三年來,CNN在圖像分割領(lǐng)域經(jīng)歷了怎樣的技術(shù)變革?

假設(shè)我們有一個(gè) 128x128 的圖像,25x25 的特征圖,想要找出與原始圖像左上角 15x15 位置對應(yīng)的特征區(qū)域,怎么在特征圖上選取像素?

三年來,CNN在圖像分割領(lǐng)域經(jīng)歷了怎樣的技術(shù)變革?

我們知道原始圖像的每一個(gè)像素與特征圖上的 25/128 個(gè)像素對應(yīng)。為了在原始圖像選取 15 個(gè)像素,在特征圖上我們需要選擇 15 * 25/128 ~= 2.93 個(gè)像素。

對于這種情形,RoIPool 會(huì)舍去零頭選擇兩個(gè)像素,導(dǎo)致排列問題。但在 RoIAlign,這種去掉小數(shù)點(diǎn)之后數(shù)字的方式被避免,而是使用雙線性插值(bilinear interpolation)準(zhǔn)確獲得 2.93 像素位置的信息。在高層級(jí),這避免了排列錯(cuò)誤。

在 mask 生成之后,Mask R-CNN 把它們與 Faster R-CNN  的分類、選框結(jié)合起來,生成相當(dāng)精確的分割:


三年來,CNN在圖像分割領(lǐng)域經(jīng)歷了怎樣的技術(shù)變革?

后話

短短三年的時(shí)間,我們就看到了機(jī)器學(xué)習(xí)社區(qū)從 Krizhevsky et. al 的原始結(jié)果進(jìn)步到 R-CNN,并最終開發(fā)出 Mask R-CNN 這樣的強(qiáng)大方案。若單獨(dú)來看,Mask R-CNN 像是一步巨大的技術(shù)飛躍,令人難以望其項(xiàng)背。但在這篇簡史中,我希望大家看到,這樣的進(jìn)步是一系列直覺性、漸進(jìn)式進(jìn)步的總和,是多年苦心合作研究的成果。

但從 R-CNN 到 Mask R-CNN 畢竟只用了三年。在接下來的三年,計(jì)算機(jī)視覺又會(huì)進(jìn)步多少呢?

via athelas,雷鋒網(wǎng)編譯

相關(guān)文章:

Facebook 最新論文:Mask R-CNN實(shí)例分割通用框架,檢測,分割和特征點(diǎn)定位一次搞定(多圖)

深度學(xué)習(xí)之四大經(jīng)典CNN技術(shù)淺析 | 雷鋒網(wǎng)公開課

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

三年來,CNN在圖像分割領(lǐng)域經(jīng)歷了怎樣的技術(shù)變革?

分享:
相關(guān)文章

用愛救世界
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說