2
本文作者: 何忞 | 2016-10-13 16:50 |
完善對(duì)象分割方法(Learning to Refine Object Segments)
論文摘要
要實(shí)現(xiàn)對(duì)象分割,需要獲得兩方面的信息,一是目標(biāo)層級(jí)的信息,二是更低級(jí)別即像素級(jí)別的信息。這就為前饋網(wǎng)絡(luò)提出了挑戰(zhàn):卷積網(wǎng)絡(luò)中的底層獲取了大量的空間信息,而更高層則需要目標(biāo)層級(jí)的信息,無法隨著對(duì)象的造型及外觀變化進(jìn)行調(diào)整,效果不佳。本次研究中,我們?yōu)槟繕?biāo)分隔的前饋網(wǎng)絡(luò)提出了一種新的自上而下的改善方法。這種由頂層到底層的結(jié)構(gòu)能夠有效地做出高保真目標(biāo)圖像。該方法與跳接相比,相同點(diǎn)是都在網(wǎng)絡(luò)各層級(jí)中放大了圖像特征,不同點(diǎn)在于,我們的方法不在每層中輸出獨(dú)立的預(yù)測,而是先在前饋過程中輸出一個(gè)粗略的圖像編碼,然后再在由上至下的過程中,用底層的圖像特征依次向上完善該編碼。這種方法更加簡單、快捷和有效。在最近流行的 DeepMask 網(wǎng)絡(luò)中做出圖像指令,我們的方法將圖像精確度平均提升了 10-20%。另外,在總體網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)化問題中,我們采用了 SharpMask,與原有的 DeepMask 網(wǎng)絡(luò)相比,速度提升了50%(8 秒/圖)。
作者簡介
Pedro O. Pinheiro,供職于 Idiap Research Institute 和 Ecole Polytechnique Federale de Lausanne(EPFL)。
Tsung-Yi Lin 來自康奈爾大學(xué)康奈爾技術(shù)研究院。
結(jié)論和場景應(yīng)用
本文針對(duì)快速對(duì)象分割任務(wù)發(fā)展了一種新的網(wǎng)絡(luò)結(jié)構(gòu),對(duì)前饋網(wǎng)絡(luò)進(jìn)行自上而下通路的完善。文中的模型使目標(biāo)圖像無論是在處理速度還是在質(zhì)量方面都有了大的提升。該方法可以廣泛應(yīng)用在各種像素標(biāo)注的任務(wù)中。
PS:本文由雷鋒網(wǎng)(搜索“雷鋒網(wǎng)”公眾號(hào)關(guān)注)獨(dú)家編譯,未經(jīng)許可不得轉(zhuǎn)載!
可在此處進(jìn)行原論文下載。
推薦閱讀:
論文精選 | 實(shí)現(xiàn)城市設(shè)備智能規(guī)劃?——具有可選偏好的設(shè)施選址游戲
深度 | 計(jì)算機(jī)如何從樂盲到作曲家?建 28 層神經(jīng)網(wǎng)絡(luò),聽 8000 個(gè) MIDI 樂章
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。