0
本文作者: AI研習(xí)社-譯站 | 2020-08-24 14:47 |
字幕組雙語原文:CVPR 2020 目標(biāo)檢測論文精選
英語原文:CVPR 2020: The Top Object Detection Papers
一、基于在點云上的3D目標(biāo)檢測的分層圖形網(wǎng)絡(luò)
原文標(biāo)題:A Hierarchical Graph Network for 3D Object Detection on Point Clouds
這篇論文提出了一種基于圖卷積(gconv)的三維目標(biāo)檢測層次圖網(wǎng)絡(luò)(hgnet)。這個網(wǎng)絡(luò)通過處理原始點云,直接預(yù)測目標(biāo)的3 d邊界框。對于檢測目標(biāo),HGNet能夠捕捉這些點之間的關(guān)系并且使用多層次語義。
HGNet包含三個主要組件:
一個基于U型圖卷積的網(wǎng)絡(luò)(gu-net)
一個方案生成器
一個方案推理模塊(ProRe Module) ----使用一個全連接層圖表來推理方案
作者提出一個注意形態(tài)的圖卷積 (SA-GConv)去捕捉原始的形狀特征。這是通過建立模型的相對幾何位置來描述物體的形狀。
SA-GConv 基于u型網(wǎng)絡(luò)捕捉多層次特征。然后映射到相同的特征空間的投票模塊并且用于生成建議。在下一步中,GConv基于建議推理模塊,利用方案來預(yù)測邊框。
這里是在sun rgb-d v1數(shù)據(jù)集上獲得的一些性能結(jié)果。
原文標(biāo)題:HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection
這篇文章中使用的體素特征編碼(VFE)包含3步:
體素化——將點云分配給2D體素網(wǎng)絡(luò)
體素特征提取——計算和網(wǎng)絡(luò)相關(guān)的點的特征,饋送到PointNet樣式的功能編碼器
投影——將逐點特征聚合到體素級特征并投影到其原始網(wǎng)格。這就形成了一個偽圖像特征映射
體素的大小在VFE方法中非常重要。較小的體素尺寸可以捕獲更精細(xì)的幾何特征。它們也更擅長對象本地化,但推理時間更長。使用較粗的體素可以獲得更快的推理速度,因為這會導(dǎo)致較小的特征圖。但是,它的性能較差。
作者提出了混合體素網(wǎng)絡(luò)(HVNet),以實現(xiàn)細(xì)粒度體素功能的利用。它由三個步驟組成:
多尺度體素化-創(chuàng)建一組特征體素尺度并將它們分配給多個體素。
混合體素特征提取-計算每個比例的體素相關(guān)特征,并將其輸入到關(guān)注特征編碼器(AVFE)中。每個體素比例尺上的要素都是逐點連接的。
動態(tài)要素投影-通過創(chuàng)建一組多比例項目體素將要素投影回偽圖像。
這是在KITTI數(shù)據(jù)集上的實驗結(jié)果
原文標(biāo)題:Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud
本文作者提供了圖神將網(wǎng)絡(luò)---Point-GNN---在LiDAR點云中檢測物體。該網(wǎng)絡(luò)預(yù)測了圖中每個頂點所屬對象的類別和形狀。Point-GNN有一個自動回歸機制,可以在一個輸入中檢測多個對象。
該方法由三個部分組成:
圖構(gòu)造:使用體素下采樣點云進行圖構(gòu)造
一種T迭代的圖形神經(jīng)網(wǎng)絡(luò)
邊界框合并和得分
以下是在KITTI數(shù)據(jù)集上獲得的結(jié)果:
原文標(biāo)題:Camouflaged Object Detection
本文針對偽裝對象檢測(COD)所面臨的挑戰(zhàn),對嵌入在其周圍環(huán)境中的目標(biāo)進行檢測。作者還提供了一個名為COD10K的新數(shù)據(jù)集。它包含10,000張圖片,覆蓋了許多自然場景中偽裝的物體。它具有78個對象類別。 圖像帶有類別標(biāo)簽,邊界框,實例級別和消光級別的標(biāo)簽。
作者開發(fā)了一個稱為搜索識別網(wǎng)絡(luò)(SINet)的COD框架。代碼可以在這里找到:DengPingFan/SINet
該網(wǎng)絡(luò)有兩個主要模塊:
用于搜尋偽裝物體的搜索模塊
識別模塊(IM)用于檢測對象
以下是在各個數(shù)據(jù)集上得到的結(jié)果:
原文標(biāo)題:Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector
本文提出了一種少鏡頭目標(biāo)檢測網(wǎng)絡(luò),其目標(biāo)是檢測含有少量注釋示例的不可見類別目標(biāo)。
他們的方法包括注意力- RPN、多關(guān)系檢測器和對比訓(xùn)練策略。該方法利用少鏡頭支持集和查詢集之間的相似性來識別新對象,同時減少了誤識別。作者還提供了一個包含1000個類別的新數(shù)據(jù)集,其中的對象具有高質(zhì)量的注釋。
fanq15/Few-Shot-Object-Detection-Dataset
該網(wǎng)絡(luò)體系結(jié)構(gòu)由一個具有多個分支的權(quán)重共享框架組成,一個分支是查詢集,其他分支是支持集。權(quán)重共享框架的查詢分支是一個更快的R-CNN網(wǎng)絡(luò)。
介紹了一種帶有多關(guān)系模塊的注意- rpn和檢測器,用于在支持和查詢中可能出現(xiàn)的框之間精確解析。
下面是在ImageNet數(shù)據(jù)集上獲得的一些結(jié)果。
以下是一些在一些數(shù)據(jù)集上獲得的觀察結(jié)果。
原文標(biāo)題:D2Det: Towards High-Quality Object Detection and Instance Segmentation
本文作者提出了D2Det,一種既能精確定位又能精確分類的方法。他們引入了一個稠密的局部回歸來預(yù)測一個目標(biāo)建議區(qū)域的多個稠密盒偏移量。這使他們能夠?qū)崿F(xiàn)精確的定位。
為了實現(xiàn)準(zhǔn)確的分類,本文還引入了一種有區(qū)別的RoI pooling方案。pooling方案從該方案的多個子區(qū)域中抽取樣本,并進行自適應(yīng)加權(quán)以獲得識別特征。
該方法基于標(biāo)準(zhǔn)的Faster R-CNN框架。在該方法中,傳統(tǒng)的Faster R-CNN的盒偏置回歸被提出的密集局部回歸所代替。在該方法中,通過區(qū)分性的RoI pooling來增強分類能力。
在兩階段方法中,第一階段使用區(qū)域建議網(wǎng)絡(luò)(RPN),第二階段使用單獨的分類和回歸分支。分類分支是基于區(qū)分池的。局部回歸分支的目標(biāo)是對象的精確定位。
以下是MS COCO數(shù)據(jù)集的結(jié)果:
CVPR 2020提供了更多關(guān)于目標(biāo)檢測和其他計算機視覺任務(wù)的探索和思考,如果您想進一步研究,這里的開源倉庫包含所有的會議論文。
CVPR 2020 Open Access Repository
雷鋒字幕組是一個由 AI 愛好者組成的翻譯團隊,匯聚五百多位志愿者的力量,分享最新的海外AI資訊,交流關(guān)于人工智能技術(shù)領(lǐng)域的行業(yè)變革與技術(shù)創(chuàng)新的見解。
團隊成員有大數(shù)據(jù)專家、算法工程師、圖像處理工程師、產(chǎn)品經(jīng)理、產(chǎn)品運營、IT咨詢?nèi)?、在校師生;志愿者們來自IBM、AVL、Adobe、阿里、百度等知名企業(yè),北大、清華、港大、中科院、南卡羅萊納大學(xué)、早稻田大學(xué)等海內(nèi)外高校研究所。
如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學(xué)習(xí)新知,分享成長。
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。