丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給camel
發(fā)送

0

全新視角探究目標(biāo)檢測(cè)與實(shí)例分割的互惠關(guān)系 | AAAI 2020

本文作者: camel 2019-12-12 16:08
導(dǎo)語(yǔ):本文是對(duì)錄用于AAAI 2020的論文:“RDSNet: A New Deep Architecture for Reciprocal Object Detec

本文是對(duì)錄用于AAAI 2020的論文:“RDSNet: A New Deep Architecture for Reciprocal Object Detection and Instance Segmentation”的分析與解讀,相關(guān)工作已開(kāi)源。


論文鏈接: https://arxiv.org/abs/1912.05070


代碼鏈接: https://github.com/wangsr126/RDSNet


作者團(tuán)隊(duì):中科院自動(dòng)化所&地平線,其中第一作者王紹儒是地平線實(shí)習(xí)生,一名來(lái)自中科院自動(dòng)化所的碩士生。

論文對(duì)當(dāng)前目標(biāo)檢測(cè)及實(shí)例分割算法的現(xiàn)狀進(jìn)行了簡(jiǎn)要的概述,并對(duì)各種方法的優(yōu)劣進(jìn)行了簡(jiǎn)要的分析,據(jù)此提出了一套完整的框架,同時(shí)完成目標(biāo)檢測(cè)與實(shí)例分割任務(wù),并且兩個(gè)任務(wù)相互輔助,同時(shí)取得了性能的提升。

一、問(wèn)題背景

目標(biāo)檢測(cè)與實(shí)例分割是計(jì)算機(jī)視覺(jué)領(lǐng)域重要的兩個(gè)任務(wù),近年來(lái)出現(xiàn)了非常多優(yōu)秀的算法解決這兩個(gè)問(wèn)題,且都取得了優(yōu)異的效果,但是,卻鮮有文章深入分析兩者之間的關(guān)聯(lián),也就導(dǎo)致了諸如下圖所示的錯(cuò)誤的出現(xiàn):

全新視角探究目標(biāo)檢測(cè)與實(shí)例分割的互惠關(guān)系 | AAAI 2020

圖中所示結(jié)果由 Mask R-CNN 得到,可以看到由于邊界框定位不準(zhǔn)導(dǎo)致的實(shí)例掩碼缺失((a), (b))及邊界框與實(shí)例掩碼不統(tǒng)一的問(wèn)題((c), (d))。這些問(wèn)題都可以在這篇論文提出的算法中得到很好的解決。


二、方法介紹

算法框架如下圖所示:

全新視角探究目標(biāo)檢測(cè)與實(shí)例分割的互惠關(guān)系 | AAAI 2020

文章中認(rèn)為:目標(biāo)檢測(cè)屬于 object level 的任務(wù),這類(lèi)任務(wù)更關(guān)注物體級(jí)別的特征,對(duì)分辨率的需求不高,但需要更多的高級(jí)語(yǔ)義信息;而實(shí)例分割任務(wù)屬于 pixel level 的任務(wù),這類(lèi)任務(wù)需要給出逐像素的輸出,對(duì)分辨率的需求較高,需要更多的細(xì)節(jié)信息。

因此便設(shè)計(jì)了如圖所示的雙流網(wǎng)絡(luò),上面的 object stream 重點(diǎn)完成目標(biāo)檢測(cè)任務(wù),可以是 SSD, YOLO, RetinaNet 等任一 anchor-based 的目標(biāo)檢測(cè)算法(文中采用了 RetinaNet);下面 pixel stream 重點(diǎn)完成分割的任務(wù),分辨率很高(文中采用了類(lèi)似 PanopticFPN 的方式融合了多尺度的特征,得到了高分辨率的輸出);后續(xù)的若干操作則是文章的重點(diǎn),介紹了如何使得兩個(gè)任務(wù)相互輔助:

“物體”輔助實(shí)例分割:

目前常見(jiàn)的實(shí)例分割算法分為兩類(lèi),一類(lèi)是類(lèi)似于 Mask R-CNN 的 proposal-based 的方法,是目標(biāo)檢測(cè)算法的直接擴(kuò)展,但這類(lèi)方法會(huì)面臨上文提到的諸多問(wèn)題:得到的實(shí)例掩碼分辨率相對(duì)較低且嚴(yán)重依賴于 proposal 的邊界框;另一類(lèi)基于分割算法,首先預(yù)測(cè)每個(gè)點(diǎn)的 embedding,然后再通過(guò)聚類(lèi)得到每個(gè)實(shí)例的掩碼(屬于相同物體的點(diǎn)具有相似的 embedding,通過(guò)聚類(lèi),即可使得屬于同一物體的點(diǎn)形成一個(gè)簇,也就得到了每個(gè)物體的掩碼),這類(lèi)方法天然克服了 proposal-based 的缺陷,但一般無(wú)法 end-to-end 訓(xùn)練(一般需要 metric learning 的方式訓(xùn)練 embedding),且受限于聚類(lèi)算法,性能一般有限。

仔細(xì)分析發(fā)現(xiàn),聚類(lèi)的難題主要源于聚類(lèi)中心的缺失,換句話說(shuō),如果我們擁有每個(gè)簇的中心,我們就可以拋棄聚類(lèi)算法,進(jìn)行 end-to-end 的訓(xùn)練;而這個(gè)「中心」,應(yīng)該是每個(gè)物體的 embedding,也就是說(shuō),它應(yīng)該源于 object level,而非 pixel level!因此,也就形成了論文里提出的基于相關(guān)濾波的實(shí)例掩碼生成算法:

全新視角探究目標(biāo)檢測(cè)與實(shí)例分割的互惠關(guān)系 | AAAI 2020

Object stream 和 pixel stream 分別提取 object 和 pixel 的 embedding(object embedding 的獲取方式也很簡(jiǎn)單,直接在目標(biāo)檢測(cè)算法的 detection head 中在 classification 和 regression 分支的基礎(chǔ)上額外增加一個(gè)分支進(jìn)行預(yù)測(cè)就可以),屬于同一物體的 pixel 和與其對(duì)應(yīng)的物體具有相近的 embedding,相似性的衡量采用了內(nèi)積相似度,也就是說(shuō):對(duì)于每個(gè)檢測(cè)到的物體,以其 embedding 作為 kernel,在 pixel embedding 上執(zhí)行相關(guān)濾波,即可得到這一物體的掩碼。

除此之外,文中還充分利用了 object stream 得到的目標(biāo)邊界框,對(duì)距離物體中心較遠(yuǎn)的噪聲進(jìn)行了抑制,本質(zhì)上是在一定程度上克服 CNN 的 translation-variant 對(duì)實(shí)例分割任務(wù)的影響。

“掩碼”輔助目標(biāo)檢測(cè):

全新視角探究目標(biāo)檢測(cè)與實(shí)例分割的互惠關(guān)系 | AAAI 2020

邊界框定位是目標(biāo)檢測(cè)的一項(xiàng)重要任務(wù),而現(xiàn)有的方法大多采用回歸的方式得到邊界框的位置。然而我們回顧邊界框的定義,發(fā)現(xiàn)它本身就是通過(guò)物體的掩碼定義的(minimum enclosing rectangle of an object mask)!那么,既然我們可以得到物體的掩碼,為什么還要依賴于回歸算法,多此一舉呢(前提是物體掩碼的獲取應(yīng)該不依賴于邊界框)?然而文中通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),直接利用通過(guò)上述基于相關(guān)濾波方法得到的實(shí)例掩碼生成邊界框,精度并不太高,甚至低于回歸方法得到的邊界框!文章作者通過(guò)可視化發(fā)現(xiàn):大多數(shù)物體的掩碼都可以提供十分準(zhǔn)確的邊界框,然而也存在部分物體的掩碼預(yù)測(cè)結(jié)果不太理想,使得邊界框出現(xiàn)了較大的偏移。

據(jù)此觀察,文章提出了一種基于貝葉斯公式的邊界框定位算法,首先將邊界框定位定義為分類(lèi)任務(wù)(在 width/height 維度上某個(gè)坐標(biāo)是不是物體的邊界),將問(wèn)題轉(zhuǎn)化為給定物體掩碼,坐標(biāo)屬于邊界框的后驗(yàn)概率的預(yù)測(cè):

全新視角探究目標(biāo)檢測(cè)與實(shí)例分割的互惠關(guān)系 | AAAI 2020

然后利用貝葉斯公式,將回歸得到的邊界框作為先驗(yàn)概率 P(X=i),而 P(M』|X=i) 則由物體實(shí)例掩碼通過(guò)逐列(行)取最大、一維卷積和激活函數(shù)得到。

全新視角探究目標(biāo)檢測(cè)與實(shí)例分割的互惠關(guān)系 | AAAI 2020

整體過(guò)程如下圖所示:

全新視角探究目標(biāo)檢測(cè)與實(shí)例分割的互惠關(guān)系 | AAAI 2020

此方法綜合考慮了回歸得到的邊界框和實(shí)例掩碼的優(yōu)勢(shì),得到了更準(zhǔn)確的邊界框。具體結(jié)果可以看下圖,可以明顯發(fā)現(xiàn),由此方法得到的邊界框可以以更高的 IOU 和 ground truth bbox 匹配。

全新視角探究目標(biāo)檢測(cè)與實(shí)例分割的互惠關(guān)系 | AAAI 2020


三、實(shí)驗(yàn)結(jié)果

全新視角探究目標(biāo)檢測(cè)與實(shí)例分割的互惠關(guān)系 | AAAI 2020

文章在 COCO 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證:

在實(shí)例分割任務(wù)中,此方法在單階段算法中可以達(dá)到更優(yōu)的速度與精度的平衡,以近 3 倍的速度取得了和 TensorMask 相近的精度,以相近的速度在 YOLACT 的基礎(chǔ)上取得了 2.3mAP 的提升。

在目標(biāo)檢測(cè)任務(wù)中,此方法以極低的計(jì)算代價(jià)在不同的 backbone 上取得了一致的性能提升。

值得注意的是:文章中采用的是 RetinaNet 作為 detector,且在其基礎(chǔ)上擴(kuò)展到實(shí)例分割任務(wù)中并不會(huì)帶來(lái)顯著的計(jì)算量的增加,如果采用其他更先進(jìn)的目標(biāo)檢測(cè)算法,其精度與速度還能取得更進(jìn)一步的提升。

 

四、一些題外話

文章的解讀到此已經(jīng)結(jié)束,但是作者還提供了一些其他的角度來(lái)理解這篇文章:

Anchor-based or Anchor-free?

Anchor-free 可以算得上是 2019 年目標(biāo)檢測(cè)領(lǐng)域爆火的詞匯,本文也蹭一下熱點(diǎn),分析一下和這篇論文的關(guān)聯(lián)。

仔細(xì)觀察這篇文章提出的算法框架可以發(fā)現(xiàn),object stream 實(shí)際上是 anchor-based,而 pixel stream 則是 anchor-free:object stream 中的 detector 可以由很多目標(biāo)檢測(cè)算法充當(dāng),包括但不限于 SSD, YOLO, RetinaNet, 甚至可以是兩階段的 Faster R-CNN;而 pixel stream 不只可以預(yù)測(cè) pixel embedding,還可以額外預(yù)測(cè)邊界框角點(diǎn)(類(lèi)似 CornerNet),或人體關(guān)鍵點(diǎn)(類(lèi)似于 Assoc. Embed.),或是其他物體實(shí)例像素級(jí)的表征;而這兩個(gè)分支通過(guò)相關(guān)濾波聯(lián)系到一起,一定程度上解決了如 CornerNet 中的 grouping 的問(wèn)題。從這個(gè)角度說(shuō),這篇文章提出的框架算得上是真正的 anchor-based 和 anchor-free 的結(jié)合,未來(lái)可能催生出更多有意思的工作。


Bbox or Mask?

正如 Ross 大神在 ICCV 的 Tutorial 上提到的內(nèi)容,object detection 是一個(gè)很廣義的概念,不同的物體表征也對(duì)應(yīng)著不同 level 的任務(wù):例如:bbox 對(duì)應(yīng)著傳統(tǒng)意義上的 object detection,mask 對(duì)應(yīng)著 instance segmentation,human keypoints 對(duì)應(yīng)著 pose estimation,human surfaces 對(duì)應(yīng)著 dense human pose estimation……這些任務(wù)相互關(guān)聯(lián),對(duì)應(yīng)著不同角度、不同 level 的對(duì)物體的理解?,F(xiàn)有的方法或是將這些問(wèn)題獨(dú)立看待,或是 high-level task 直接建立在 low-level task 上(例如 Mask R-CNN,兩階段的人體姿態(tài)估計(jì)等),但這些任務(wù)的關(guān)聯(lián)絕不僅限于此。這篇文章的關(guān)注點(diǎn)是 bbox 和 mask 的關(guān)聯(lián),但也并未做到極致。從這個(gè)角度說(shuō),object detection 仍然還有巨大的發(fā)展空間。

 

參考文獻(xiàn)

Kaiming He, et al. "Mask R-CNN." In Proceedings of IEEE International Conference on Computer Vision. 2017.

Wei Liu, et al. "SSD: Single shot multibox detector." In Proceedings of European Conference on Computer Vision. 2016.

Joseph Redmon and Ali Farhadi. "YOLOv3: An incremental improvement." arXiv preprint arXiv:1804.02767 (2018).

Tsung-Yi Lin, et al. "Focal loss for dense object detection." In Proceedings of IEEE International Conference on Computer Vision. 2017.

Alexander Kirillov, et al. "Panoptic feature pyramid networks." In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. 2019.

Xinlei Chen, et al. "Tensormask: A foundation for dense object segmentation." arXiv preprint arXiv:1903.12174 (2019).

Daniel Bolya, et al. YOLACT: Realtime instance segmentation. In Proceedings of IEEE International Conference on Computer Vision. 2019.

Shaoqing Ren, et al. "Faster R-CNN: Towards real-time object detection with region proposal networks." In Proceedings of Advances in Neural Information Processing Systems. 2015.

Hei Law and Jia Deng. "CornerNet: Detecting objects as paired keypoints." In Proceedings of European Conference on Computer. 2018.

Alejandro Newell, et al. "Associative embedding: End-to-end learning for joint detection and grouping." In Proceedings of Advances in Neural Information Processing Systems. 2017.

雷鋒網(wǎng)報(bào)道。

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

全新視角探究目標(biāo)檢測(cè)與實(shí)例分割的互惠關(guān)系 | AAAI 2020

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)