0
近日,F(xiàn)acebook 發(fā)布了一項新的研究,該研究探索了實例分割的新方法。與掩模 R-CNN 驅(qū)動的標準方法相比,TunSoMeM 為探索分割研究提供了新的方向。本文是有關(guān)這項研究的具體內(nèi)容。
研究內(nèi)容:
我們引入了一個稱為 TensorMask 的新框架,它使用了一種密集的滑窗技術(shù)來進行非常精確的實例分割。TensorMask 設(shè)計了新穎的結(jié)構(gòu)和算子,以豐富、有效地捕捉 4D 幾何結(jié)構(gòu)密集圖像的表示。這是第一次使用這種方法,在質(zhì)量和數(shù)量上取得與 Facebook 人工智能開創(chuàng)性的邊界框驅(qū)動框架 Mask R-CNN 并駕齊驅(qū)的成果。
工作原理:
最近,直接滑動窗口范式見證了邊界框?qū)ο髾z測的復興,這種方法使得在不需要后續(xù)細化步驟的情況下,在單個階段準確檢測對象成為可能。但是,由于實例模板是復雜的二維幾何結(jié)構(gòu),而不是簡單的矩形,因此這種方法在實例分割任務中效果不大。當在二維規(guī)則網(wǎng)格上密集滑動時,實例遮罩需要具有尺度自適應大小的高維 4D 張量來有效表示。
Tensormask 使用結(jié)構(gòu)化的、高維的 4D 幾何張量來實現(xiàn)這一點,這些張量由具有明確像素單位的軸的子張量組成。這些子張量啟用具有幾何意義的操作,例如協(xié)調(diào)變換、上下縮放和使用縮放金字塔。與此相反,以前的嘗試,如 DeepMask,使用了非結(jié)構(gòu)化的 3D 張量,缺乏清晰的幾何意義,這使得表示更難操作。
為了在滑動窗口中有效地生成遮罩,我們使用各種張量表示,其中子張量表示遮罩值。例如,對齊的表示是這樣的:它的子張量枚舉重疊它所有窗口中的掩碼值。如下圖所示,對齊表示使使用粗糙子張量能夠更好地預測更精細的分辨率掩碼。
以前的掩模表示方法要么效率較低,要么容易產(chǎn)生偽影。TensorMask 提出的對齊表示對于密集、重疊的對象最有效。
我們使用 TensorMask 框架開發(fā)了 Tensor Bipyramid,這是一種新的金字塔結(jié)構(gòu),可以自然地捕捉任務的幾何結(jié)構(gòu),其中大對象在粗略位置具有高分辨率遮罩,小對象在精細位置具有低分辨率遮罩。利用張量雙錐結(jié)構(gòu)的最佳張量矩陣模型達到 37.1 AP——代表平均值的標準度量——而掩模 R-CNN 對應物達到 38.3 AP。
為什么重要
與掩模 R-CNN 驅(qū)動的標準方法相比,TunSoMeM 為探索分割研究提供了新的方向。使用 TensorMask,對于高性能實例分割,不再需要邊框。這種新的、互補的方法有助于推進將目標和背景分割徹底統(tǒng)一為單一模型的研究。這項研究將有助于我們更廣泛地理解稠密掩模預測的任務,是不斷創(chuàng)新和建立更強大的圖像理解系統(tǒng)的重要組成部分。
閱讀全文:
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。