丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

何愷明組基礎(chǔ)理論再突破:媲美雙階段方法的單階段實(shí)例分割算法

本文作者: 楊曉凡 2019-04-03 10:10
導(dǎo)語(yǔ):有多媲美呢?在論文里都開(kāi)始「大家來(lái)找茬」

何愷明組基礎(chǔ)理論再突破:媲美雙階段方法的單階段實(shí)例分割算法

TensorMask 密集實(shí)例分割效果示例。左圖:示例圖;右圖:局部放大。圖中可以看到,不僅較大和較小的物體都得到了較為完善的勾畫(huà),物體之間相互遮擋的邊緣也能夠正確地處理。

雷鋒網(wǎng) AI 科技評(píng)論按:大家都知道物體檢測(cè)算法中有單階段方法和雙階段方法之爭(zhēng),前者一般運(yùn)算量較低、運(yùn)行速度更快,但后者的準(zhǔn)確率一般更高,適合需要精度的場(chǎng)合。

雙階段物體檢測(cè)的標(biāo)桿方法 Faster R-CNN 和 Mask R-CNN 都來(lái)自 FAIR 研究員何愷明,而他也在單階段方法的研究上做出了突破,提出了 RetinaNet。不過(guò)何愷明組意識(shí)到,目前的單階段方法都僅僅針對(duì)了預(yù)測(cè)邊界框的任務(wù),而在像素級(jí)實(shí)例分割方面沒(méi)有什么建樹(shù)。他們欣然接受了這一挑戰(zhàn),并帶來(lái)了這篇論文《TensorMask: A Foundation for Dense Object Segmentation》(TensorMask,密集物體分割的基礎(chǔ)),arxiv.org/abs/1903.12174。雷鋒網(wǎng) AI 科技評(píng)論把論文主要內(nèi)容概要介紹如下。

何愷明組基礎(chǔ)理論再突破:媲美雙階段方法的單階段實(shí)例分割算法

「滑動(dòng)窗口」,在圖像中不同的位置密集放置許多不同的窗口,并分別在這些窗口里嘗試尋找物體的做法,是計(jì)算機(jī)視覺(jué)領(lǐng)域最早、也最成功的概念之一,我們也自然地在卷積神經(jīng)網(wǎng)絡(luò)中見(jiàn)到了這種范式。然而,雖然如今的表現(xiàn)最好的目標(biāo)檢測(cè)系統(tǒng)仍然依靠預(yù)測(cè)滑動(dòng)窗口來(lái)生成最初的候選區(qū)域,緊接著我們會(huì)在這些候選區(qū)域上進(jìn)行第二階段的優(yōu)化過(guò)程(重新判別)來(lái)達(dá)到更高的準(zhǔn)確率,比如 Faster R-CNN 和 Mask R-CNN 就都采用了這樣的設(shè)計(jì),然后分別在邊界框的物體檢測(cè)以及像素級(jí)實(shí)例分割任務(wù)中取得了優(yōu)秀的表現(xiàn)。在 COCO 數(shù)據(jù)集的物體檢測(cè)競(jìng)賽中霸榜的正是這類(lèi)方法。

有一些近期的邊界框物體檢測(cè)器拋棄了第二階段的優(yōu)化過(guò)程,完全關(guān)注直接預(yù)測(cè)滑動(dòng)窗口,比如 SSD、Y YOLO 和 RetinaNet(同樣來(lái)自何愷明組,解讀文章見(jiàn)這里),這些方法不僅重新引發(fā)了關(guān)注,也帶來(lái)了令人期待的結(jié)果。相比之下,我們并沒(méi)能見(jiàn)到什么單階段方法在像素級(jí)實(shí)例分割任務(wù)中做出大的改進(jìn),達(dá)到 SSD、RetinaNet 那樣級(jí)別的性能。為什么邊界框預(yù)測(cè)中單階段密集檢測(cè)方法那么火熱,但卻沒(méi)有怎么在實(shí)例分割中見(jiàn)到呢?這個(gè)問(wèn)題從基礎(chǔ)科研角度非常地令人好奇。這項(xiàng)研究的目標(biāo)就是解答這個(gè)問(wèn)題,并為單階段密集實(shí)例分割的探索做一些基礎(chǔ)工作。

作者們的主要發(fā)現(xiàn)是,定義密集遮罩表征的核心概念,以及這些概念在神經(jīng)網(wǎng)絡(luò)中的高效實(shí)現(xiàn)方法都是缺乏的。邊界框有固定的、尺度無(wú)關(guān)的低維表征,相比之下,分割遮罩可以從更豐富、更結(jié)構(gòu)化的表征中受益。舉例說(shuō)明,每個(gè)遮罩自己就是一個(gè)二維空間映射圖,使用更大的二維空間映射圖也可以讓更大目標(biāo)的遮罩受益。如果想要讓密集實(shí)例分割變得可能,為密集遮罩開(kāi)發(fā)高效的表征是關(guān)鍵的一步。

為了解決這個(gè)問(wèn)題,作者們?cè)谶@篇論文中定義了一系列用高維張量表征遮罩的核心概念,接下來(lái)也就可以借助這些概念探索用于密集遮罩預(yù)測(cè)的新網(wǎng)絡(luò)架構(gòu)。為了展示這種新的表征的優(yōu)勢(shì),作者們展示了數(shù)種可能的網(wǎng)絡(luò)架構(gòu)并進(jìn)行了實(shí)驗(yàn)。作者們把提出的框架稱(chēng)為「TensorMask」,基于它,作者們建立了第一個(gè)表現(xiàn)可以比擬 Mask R-CNN 的基于滑動(dòng)窗口的單階段密集實(shí)例分割系統(tǒng)。

TensorMask 表征的關(guān)鍵思想是使用結(jié)構(gòu)化的四維向量,在中間域中表征遮罩。DeepMask 和 InstanceFCN 等之前的研究針對(duì)的是一個(gè)類(lèi)似的問(wèn)題,對(duì)未知類(lèi)別的對(duì)象位置候選區(qū)域進(jìn)行分割,它們都使用的是非結(jié)構(gòu)化的三維張量,其中把遮罩打包進(jìn)了第三層的「通道」坐標(biāo)。與表征對(duì)象位置的坐標(biāo)不同,通道坐標(biāo)中沒(méi)有明確的圖形含義,也就很難操作。由于這些方法中使用了很基本的通道表征,他們也就失去了使用結(jié)構(gòu)化的數(shù)組把遮罩表示為二維實(shí)體、從而獲得改善的機(jī)會(huì);這一區(qū)別就像是多層感知機(jī)和卷積網(wǎng)絡(luò)中表征二維圖像的區(qū)別一樣。

與之前這些面向通道的方案不同,這篇論文的作者們提出的方法運(yùn)用了形狀(V,U,H,W)的四維矩陣,其中(H,W)表示對(duì)象的位置,(V,U)表示遮罩的相對(duì)位置,這四者都是幾何子張量,也就是說(shuō),它們都具有定義完善的坐標(biāo)軸,也都帶有關(guān)于圖像的幾何信息。這種做法把用非結(jié)構(gòu)化的坐標(biāo)編碼遮罩替換為使用結(jié)構(gòu)化的幾何子張量,也就讓定義新的運(yùn)算和網(wǎng)絡(luò)結(jié)構(gòu)變得可能。新定義的網(wǎng)絡(luò)可以直接在(V,U)子張量上運(yùn)算,利用其中的幾何信息,包括協(xié)調(diào)變換、上下采樣以及使用尺寸金字塔。

何愷明組基礎(chǔ)理論再突破:媲美雙階段方法的單階段實(shí)例分割算法

左圖:自然表征。右圖:TensorMask 使用的層間對(duì)齊表征

通過(guò)引入 TensorMask 框架,作者們基于一組按大小排列的四維張量開(kāi)發(fā)了一個(gè)金字塔結(jié)構(gòu),并把它稱(chēng)作張量雙金字塔。傳統(tǒng)的特征金字塔是一組不同尺寸的特征圖列表,相比之下,張量雙金字塔包含了一系列四維張量,尺寸從(V,U,H,W)到(2kV,2kU,1/2k H,1/2k W),其中 k 表示尺寸索引。這種結(jié)構(gòu)可以讓?zhuān)℉,W)和(V,U)兩組幾何子張量分別形成金字塔形,不過(guò)兩者的縮放方向相反。這是一種很自然的設(shè)計(jì),對(duì)應(yīng)了理想中較大的對(duì)象需要高分辨率的遮罩,但空間位置變化較少(較大的 k 值),以及較小的對(duì)象只需要低分辨率的遮罩,但空間位置就較為細(xì)分(較小的 k 值)。

何愷明組基礎(chǔ)理論再突破:媲美雙階段方法的單階段實(shí)例分割算法

作者們把這些組件融合進(jìn)參考 RetinaNet 設(shè)計(jì)的網(wǎng)絡(luò)主干和訓(xùn)練過(guò)程中,新提出的密集遮罩預(yù)測(cè)器也就可以拓展網(wǎng)絡(luò)中原先的邊界框預(yù)測(cè)器的功能。作者們仔細(xì)設(shè)計(jì)了多組對(duì)照實(shí)驗(yàn),在其中評(píng)估了 TensorMask 框架的有效性,并展示了顯式地捕捉幾何結(jié)構(gòu)這一設(shè)定的重要性。最后,作者們也把 TensorMask 和 Mask R-CNN 的結(jié)果進(jìn)行了對(duì)比。這些令人欣喜的結(jié)果都表明,論文中提出的框架已經(jīng)為單階段密集滑動(dòng)窗口實(shí)例分割的未來(lái)研究鋪平了道路。

何愷明組基礎(chǔ)理論再突破:媲美雙階段方法的單階段實(shí)例分割算法

何愷明組基礎(chǔ)理論再突破:媲美雙階段方法的單階段實(shí)例分割算法

TensorMask 和 Mask R-CNN 的分割結(jié)果對(duì)比,網(wǎng)絡(luò)主干是 ResNet-101-FPN —— 作者們自信地表示,兩者結(jié)果定性和定量的相似度都很高,他們邀請(qǐng)大家猜猜哪些結(jié)果是 TensorMask 的,哪些是 Mask R-CNN 的。

何愷明組基礎(chǔ)理論再突破:媲美雙階段方法的單階段實(shí)例分割算法

在 COCO 上的定量實(shí)驗(yàn)表明,Mask R-CNN 仍然取得了更高的 mAP 成績(jī),這并不令人意外。不過(guò),TensorMask 目前也并沒(méi)有運(yùn)行速度優(yōu)勢(shì),ResNet-101-FPN 主干的 TensorMask 在英偉達(dá) V100 GPU 上的運(yùn)行速度為 0.38 秒每圖像(Mask R-CNN 只有 0.09 秒每圖像)。作者們的解釋是,TensorMask (作為單階段方法)在密集的滑動(dòng)窗口中(數(shù)量大于 100k)預(yù)測(cè)遮罩造成了很高的計(jì)算開(kāi)銷(xiāo),相比之下 Mask R-CNN (作為雙階段方法)只需要在第二階段選擇出的窗口中預(yù)測(cè)遮罩,需要預(yù)測(cè)的窗口數(shù)量很可能不大于 100 個(gè)。作者們表示,加速的辦法自然是有的,不過(guò)這篇論文的目的是完善基礎(chǔ)、探路,加速優(yōu)化的辦法另外再談。

論文原文(更多細(xì)致的對(duì)照實(shí)驗(yàn),大量對(duì)比圖)見(jiàn):https://arxiv.org/abs/1903.12174

雷鋒網(wǎng) AI 科技評(píng)論編譯。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

何愷明組基礎(chǔ)理論再突破:媲美雙階段方法的單階段實(shí)例分割算法

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)