丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給夏睿
發(fā)送

0

Facebook 最新論文:Mask R-CNN實(shí)例分割通用框架,檢測(cè),分割和特征點(diǎn)定位一次搞定(多圖)

本文作者: 夏睿 2017-03-23 07:30
導(dǎo)語(yǔ):Mask R-CNN是Faster R-CNN的擴(kuò)展形式,能夠有效地檢測(cè)圖像中的目標(biāo),同時(shí)還能為每個(gè)實(shí)例生成一個(gè)高質(zhì)量的分割掩碼。

Facebook 最新論文:Mask R-CNN實(shí)例分割通用框架,檢測(cè),分割和特征點(diǎn)定位一次搞定(多圖)

對(duì)Facebook而言,想要提高用戶體驗(yàn),就得在圖像識(shí)別上做足功夫。

雷鋒網(wǎng)此前報(bào)道《Facebook AML實(shí)驗(yàn)室負(fù)責(zé)人:將AI技術(shù)落地的N種方法》( ,下篇)就提到,做好圖像識(shí)別,不僅能讓Facebook的用戶更精準(zhǔn)搜索到想要的圖片,為盲人讀出圖片中包含的信息,還能幫助用戶在平臺(tái)上銷售物品、做社交推薦等等。

近日, FAIR部門的研究人員在這一領(lǐng)域又有了新的突破——他們提出一種目標(biāo)實(shí)例分割(object instance segmentation)框架Mask R-CNN,該框架較傳統(tǒng)方法操作更簡(jiǎn)單、更靈活。研究人員把實(shí)驗(yàn)成果《Mask R-CNN》發(fā)布在了arXiv上,并表示之后會(huì)開源相關(guān)代碼。

以下為AI科技評(píng)論據(jù)論文內(nèi)容進(jìn)行的部分編譯。

論文摘要

物體識(shí)別,圖像語(yǔ)義分割技術(shù)能在短時(shí)間內(nèi)快速發(fā)展,F(xiàn)ast/Faster RCNN和全卷積網(wǎng)絡(luò)(FCN)框架等技術(shù)功不可沒。這些方法概念直觀,訓(xùn)練和推斷速度快,并且具有良好的靈活性和魯棒性。

一般來(lái)說(shuō),目標(biāo)分割的難點(diǎn)在于,它需要正確識(shí)別出圖像中所有物體的方向,并且要將不同物體精準(zhǔn)區(qū)分開。因此,這里面涉及到兩個(gè)任務(wù):

  • 用物體識(shí)別技術(shù)識(shí)別物體,并用邊界框表示出物體邊界;

  • 用語(yǔ)義分割給像素分類,但不區(qū)分不同的對(duì)象實(shí)例。

大家可能認(rèn)為,要同時(shí)完成這兩個(gè)任務(wù),方法一定會(huì)相當(dāng)復(fù)雜;但Mask R-CNN卻可以更輕松的解決這兩個(gè)問(wèn)題。

Mask R-CNN是Faster R-CNN的擴(kuò)展形式,能夠有效地檢測(cè)圖像中的目標(biāo),同時(shí)還能為每個(gè)實(shí)例生成一個(gè)高質(zhì)量的分割掩碼(segmentation mask)。

它的構(gòu)建方法是:在每個(gè)興趣點(diǎn)(Region of Interest,RoI)上加一個(gè)用于預(yù)測(cè)分割掩碼的分層,稱為掩碼層(mask branch),使該層并行于已有邊界層和分類層(如下圖所示)。

Facebook 最新論文:Mask R-CNN實(shí)例分割通用框架,檢測(cè),分割和特征點(diǎn)定位一次搞定(多圖)

 Mask R-CNN 框架

于是,掩碼層就成為了一個(gè)小型FCN。我們將它應(yīng)用于單個(gè)RoI中,以在pixel-to-pixel行為中預(yù)測(cè)分割掩碼。

Mask R-CNN 的優(yōu)點(diǎn):

  • 由于目前已有許多設(shè)計(jì)良好,可用于Faster R-CNN的構(gòu)架,因此,作為Faster R-CNN的擴(kuò)展,Mask R-CNN在應(yīng)用時(shí)也沒有阻礙;

  • 考慮到掩碼層只給整個(gè)系統(tǒng)增加一小部分計(jì)算量,所以該方法運(yùn)行起來(lái)非常高效;

  • Mask R-CNN 還可以很容易泛化到其它任務(wù)上。比如,可以在同一個(gè)框架中估計(jì)人物的動(dòng)作。

在COCO測(cè)試中可以看到,Mask R-CNN 在實(shí)例分割、邊界框目標(biāo)檢測(cè)和人物關(guān)鍵點(diǎn)檢測(cè)這三個(gè)難點(diǎn)上都獲得了較好的實(shí)驗(yàn)效果,并且比每個(gè)現(xiàn)有的獨(dú)立模型,包括 COCO 2016 挑戰(zhàn)賽的獲勝模型,表現(xiàn)都要好。

所以,我們希望該方法能為簡(jiǎn)化勢(shì)力層面的識(shí)別打下一個(gè)堅(jiān)實(shí)的基礎(chǔ)。

實(shí)驗(yàn)結(jié)果圖&表

研究人員進(jìn)行了一系列實(shí)驗(yàn)來(lái)分析Mask R-CNN的運(yùn)行效果。例如,把Mask R-CNN放在 COCO 測(cè)試集上進(jìn)行測(cè)試、對(duì)比多項(xiàng)掩碼和單項(xiàng)掩碼(Multinomial vs. Independent Masks)、對(duì)比Class-Specific 和Class-Agnostic Masks、對(duì)比RoIAlign和RoIWarp等。以下是論文中出現(xiàn)的部分實(shí)驗(yàn)圖和表格:

Facebook 最新論文:Mask R-CNN實(shí)例分割通用框架,檢測(cè),分割和特征點(diǎn)定位一次搞定(多圖)

  • 圖2:Mask R-CNN在 COCO 測(cè)試集上的測(cè)試結(jié)果。結(jié)果顯示,Mask R-CNN能用 ResNet-101,在 5 fps 的度下實(shí)現(xiàn) 35.7 的 mask AP。圖上不同的顏色表示不同的掩碼,另外也給出的邊界框、類別和置信度。


Facebook 最新論文:Mask R-CNN實(shí)例分割通用框架,檢測(cè),分割和特征點(diǎn)定位一次搞定(多圖)

  • 圖 3:頂端架構(gòu):我們延展了兩個(gè)已有的 Faster R-CNN 頭 [14,21]。左圖和右圖分別展示了 ResNet C4 和 FPN 的主干的頂端部分,分別來(lái)自 [14] 和 [21],而且可以看到上面還增加了一個(gè) mask 分支。圖中的數(shù)字表示空間分辨率和信道,箭頭表示卷積、去卷積或全連接層。具體可以根據(jù)情況推斷(卷積會(huì)保持空間維度而去卷積會(huì)增加空間維度)。除了輸出卷積是 1×1 之外,其它所有卷積都是 3×3,去卷積是 2×2,步幅為 2。我們?cè)陔[藏層中使用 ReLU [24]。左圖中 res5 表示 ResNet 的第 5 階段,但為了簡(jiǎn)單起見,我們做了修改,使第 1 個(gè)卷積層運(yùn)行在一個(gè) 7×7 RoI 上,步幅為 1(而不是如 [14] 中的 14×14,步幅為 2)。右圖中的 ×4 表示 4 個(gè)連續(xù)卷積的堆疊。

Facebook 最新論文:Mask R-CNN實(shí)例分割通用框架,檢測(cè),分割和特征點(diǎn)定位一次搞定(多圖)

  • 表 1:在 COCO test-dev 上的實(shí)例分割 mask AP。MNC [7] 和 FCIS [20] 分別是 COCO 2015 和 2016 分割挑戰(zhàn)賽的獲勝模型。僅有Mask R-CNN,其表現(xiàn)就超過(guò)了更復(fù)雜的 FCIS+++——其包括多種規(guī)模的訓(xùn)練/測(cè)試、水平翻轉(zhuǎn)測(cè)試和 OHEM [29]。所有的項(xiàng)都是單個(gè)模型的結(jié)果。

Facebook 最新論文:Mask R-CNN實(shí)例分割通用框架,檢測(cè),分割和特征點(diǎn)定位一次搞定(多圖)

  • 表2:Mask R-CNN 的分解表。在 trainval35k 上訓(xùn)練,在 minival 上測(cè)試。主要是 mask AP 的成績(jī),除非有特別指明。

上圖顯示,更深層的網(wǎng)絡(luò)(圖2a:50 vs 101)和更先進(jìn)的設(shè)計(jì)(包括FPN和ResNeXt)都對(duì)Mask R-CNN有幫助作用。不過(guò),也不是所有框架都能自動(dòng)從中受益。


Facebook 最新論文:Mask R-CNN實(shí)例分割通用框架,檢測(cè),分割和特征點(diǎn)定位一次搞定(多圖)

  • 表3:在 test-dev 上目標(biāo)檢測(cè)單個(gè)模型的結(jié)果(邊界框 AP)vs 當(dāng)前最佳。使用 ResNet-101-FPN 的 Mask R-CNN 的表現(xiàn)超越了所有之前最佳模型的基本變體(在這些實(shí)驗(yàn)中忽略了 mask output)。Mask R-CNN 在 [21] 的基礎(chǔ)上獲得的增益得益于對(duì) RoIAlign (+1.1 APbb)、多任務(wù)訓(xùn)練 (+0.9 APbb) 和 ResNeXt-101 (+1.6 APbb) 的使用。

Facebook 最新論文:Mask R-CNN實(shí)例分割通用框架,檢測(cè),分割和特征點(diǎn)定位一次搞定(多圖)

  • 圖6:用Mask R-CNN (ResNet-50-FPN)在COCO測(cè)試上進(jìn)行關(guān)鍵點(diǎn)測(cè)試。該模型在 5 fps 條件下實(shí)現(xiàn)了 63.1 的關(guān)鍵點(diǎn) AP。

  • Facebook 最新論文:Mask R-CNN實(shí)例分割通用框架,檢測(cè),分割和特征點(diǎn)定位一次搞定(多圖)
  • 表 4:在 COCO test-dev 上的關(guān)鍵點(diǎn)檢測(cè) AP。ResNet-50-FPN 是以 5 fps 運(yùn)行的單個(gè)模型。CMUPose+++[4] 是 2016 年的比賽獲勝者,使用了多尺度測(cè)試、帶有 CPM 的后處理 [33] 和帶有一個(gè)目標(biāo)檢測(cè)器的濾波,累加約 5 分(在個(gè)人通信中闡明的)。G-RMI 是在 COCP plus MPII [1](2.5 萬(wàn)張圖像)上訓(xùn)練的,使用了兩個(gè)模型(Inception-ResNet-v2 + ResNet- 101)。由于使用了更多數(shù)據(jù),所以不是與 Mask R-CNN 的直接對(duì)比。

另外,值得一提的是,該論文的第一作者為香港中文大學(xué)的何凱明博士,雷鋒網(wǎng)此前也報(bào)道過(guò)何凱明博士的其他成就,如《秒懂!何凱明的深度殘差網(wǎng)絡(luò)PPT是這樣的|ICML2016 tutorial》,霧霾太重?深度神經(jīng)網(wǎng)絡(luò)教你如何圖像去霧》等,想了解更多Facebook研究院及何凱明博士的最新研究成果,請(qǐng)繼續(xù)關(guān)注雷鋒網(wǎng)及AI科技評(píng)論公眾號(hào)。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

Facebook 最新論文:Mask R-CNN實(shí)例分割通用框架,檢測(cè),分割和特征點(diǎn)定位一次搞定(多圖)

分享:
相關(guān)文章

編輯

求索于科技人文間, 流連在 AI 浪潮下; 我在這兒, 斟酒,燃香,等你故事
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)