0
由于用于構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的各個模塊具有較為固定的幾何結(jié)構(gòu),從而在根本上限制了 CNNs 算法對幾何變換的建模。雷鋒網(wǎng)了解到,在《Deformable Convolutional Networks》這篇論文中,來自微軟亞洲研究院的研究員們提出了兩種全新的模塊 Deformable convolution 和 Deformable RoI pooling 用于提升 CNNs 算法對幾何變換的建模能力。
上圖展示了一個 3 x 3 大小的 Deformable convolution 結(jié)構(gòu)
Deformable convolution 和 Deformable RoI pooling 兩種模塊構(gòu)建的思想分別是:
在提供了額外偏移的情況下增加模塊中的空間采樣位置(見 Figure 2);
在沒有額外監(jiān)督的情況下從目標(biāo)任務(wù)學(xué)習(xí)偏移(見 Figure 3)。
上圖展示了一個 3 x 3 大小的 Deformable RoI pooling 結(jié)構(gòu)
值得一提的是,這兩個模塊都可以輕而易舉地取代現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)(CNNs)中的相對應(yīng)模塊,并且也可以通過標(biāo)準(zhǔn)的反向傳播算法進(jìn)行端到端(End-to-End)的訓(xùn)練從而產(chǎn)生可變形的卷積網(wǎng)絡(luò)(Deformable convolutional networks)。
上圖中(a)展示了傳統(tǒng)卷積操作中兩層固定的感受野,而(b)展示可變形卷積操作中兩層可自適應(yīng)的感受野。(a)與(b)兩圖遵循相同的結(jié)構(gòu),自上而下分別是:1、最頂層的圖片中展示兩個激活單元,它們分位于不同形狀與大小的物體中,而它們的輸入來自于一個3x3大小的濾波器;2、中間的圖片展示了兩個3x3大小的濾波器在前一個特征圖(feature map)上的采樣位置,并且其中依然有兩個激活單元被高亮出來;3、最底層的圖片中展示了在前一個特征圖上兩個層級的3x3大小的濾波器的采樣位置,其中有兩組采樣位置被高亮出來,它們分別對應(yīng)于上一層圖片中的高亮單元。
據(jù)雷鋒網(wǎng)了解,微軟亞洲研究院的研究員們已經(jīng)通過大量的實驗驗證了該新方法對于物體檢測和語義分割這兩個復(fù)雜視覺任務(wù)具有有效性,并且相關(guān)的實驗代碼也將被公開出來。
via Deformable Convolutional Networks,雷鋒網(wǎng)編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。