0
本文作者: 黃善清 | 2019-04-24 10:49 |
雷鋒網(wǎng) AI 科技評論按:在計算機(jī)視覺領(lǐng)域中,多維度目標(biāo)檢測一直被用作輸入以生成反映不同維度信息的特征組合,這種辦法能夠有效表達(dá)圖片上的各種維度特征,然而卻對硬件計算能力及內(nèi)存大小有較高要求,因此只能在有限的領(lǐng)域內(nèi)部使用。Facebook 于 2016 年在論文《Feature Pyramid Networks for Object Detection》中提出的 FPN,通過利用常規(guī) CNN 模型內(nèi)部從底至上各個層對同一 scale 圖片不同維度的特征表達(dá)結(jié)構(gòu),提出了一種可有效在單一圖片視圖下生成對其的多維度特征表達(dá)的方法。近期,F(xiàn)acebook 和谷歌接連發(fā)布了基于 FPN 的改進(jìn)工作,我們將之整理如下。
2018 年初,F(xiàn)acebook 還在論文《Panoptic Segmentation》中對全景分割 Panoptic Segmentation 任務(wù)進(jìn)行了研究,并提出了自己的解決方案 Panoptic FPN。由于全景分割任務(wù)近期開始變得熱門,F(xiàn)acebook 考慮把 FPN 模型用于一次性解決全景分割任務(wù),于是在今年 1 月發(fā)布了《Panoptic Feature Pyramid Networks》,以下為論文摘要:
我們近期引介的全景分割任務(wù),成功引起了社區(qū)對于統(tǒng)一實例分割與語義分割任務(wù)的興趣。然而,當(dāng)前用于處理該聯(lián)合任務(wù)的最先進(jìn)方法,依然使用的是獨立且不相似的網(wǎng)絡(luò),因而未具備相應(yīng)的共享計算。在這項工作中,我們的目標(biāo)是在架構(gòu)層面統(tǒng)一這些方法,為兩個任務(wù)設(shè)計一個統(tǒng)一的網(wǎng)絡(luò)。我們將作為語義分割方法分支的共享特征金字塔網(wǎng)絡(luò)(FPN)與 Mask R-CNN(一種流行的實例分割方法)進(jìn)行結(jié)合。令人驚訝的是,這個簡單的基線不僅對示例分割任務(wù)有效,而且還產(chǎn)生了一種輕量級、性能出眾的語義分割方法。在這項工作中,我們對帶有 FPN 的 Mask R-CNN 進(jìn)行了詳細(xì)研究,我們將之稱為 Panoptic FPN,并成功展示對于兩個任務(wù)而言,它是一個穩(wěn)健且準(zhǔn)確的基線。鑒于其有效性和概念性簡單,我們希望該方法能幫到未來的全景分割研究。
論文鏈接:
https://arxiv.org/abs/1901.02446
今年 4 月 16 日,谷歌接著發(fā)布一篇名為《NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection》論文,提出一項可以更好用于目標(biāo)檢測的 NAS-FPN。該論文已被 CVPR 2019 接收,以下為論文摘要:
如今用于物體檢測的最先進(jìn)卷積體系結(jié)構(gòu)都是人為設(shè)計的。 因此,我們的目標(biāo)是為物體檢測構(gòu)建一個更好的特征金字塔網(wǎng)絡(luò)架構(gòu)。我們采用神經(jīng)架構(gòu)搜索(Neural Architecture Search),在一個涵蓋所有跨規(guī)模連接的新型可擴(kuò)展搜索空間中發(fā)現(xiàn)了新的特征金字塔架構(gòu), 這個被命名為NAS-FPN的架構(gòu)由自上而下和自下而上的連接組合而成,可跨規(guī)模進(jìn)行融合。 與最先進(jìn)的物體檢測模型相比,在 RetinaNet 框架里集合了各種骨干模型的 NAS-FPN 能達(dá)到更好的準(zhǔn)確性和延遲權(quán)衡。 與最先進(jìn)的 SSDLite + MobileNetV2 模型相比,NAS-FPN 成功將移動檢測的精度提高了 2 AP,并以 48.3 AP 成功超越 Mask R-CNN 的檢測精度,而且使用的計算時間更短。
論文鏈接:
https://arxiv.org/abs/1904.07392
雷鋒網(wǎng) AI 科技評論雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。