0
本文作者: 木子 | 2021-03-17 14:15 |
日前,全球計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議CVPR(IEEE Conference on Computer Vision and Pattern Recognition)公布了2021年論文接收結(jié)果。來(lái)自創(chuàng)新奇智的論文 《Zero-Shot Instance Segmentation》成功被CVPR 2021接收。
CVPR是計(jì)算機(jī)視覺(jué)領(lǐng)域三大頂級(jí)會(huì)議(CVPR、ICCV、ECCV)之一。CVPR的論文投稿量近五年來(lái)持續(xù)增長(zhǎng),根據(jù)CVPR官方網(wǎng)站統(tǒng)計(jì),2021年一共收到有效投稿論文超過(guò)7500篇,最終1663篇論文被接收,接收率為27.3%。在激烈的競(jìng)爭(zhēng)中,創(chuàng)新奇智投稿的論文脫穎而出,顯示創(chuàng)新奇智在計(jì)算機(jī)視覺(jué)領(lǐng)域深厚的創(chuàng)新力。
創(chuàng)新奇智被CVPR2021接收的論文提出了零樣本實(shí)例分割,屬于零樣本物體檢測(cè)的自然延伸(類似于Mask-RCNN之于Faster-RCNN)。創(chuàng)新奇智在將人工智能應(yīng)用到商業(yè)化實(shí)踐的過(guò)程中,會(huì)遇到AI落地過(guò)程中非常現(xiàn)實(shí)的問(wèn)題,尤其是在面向信息化程度有限,樣本復(fù)雜多樣,正樣本數(shù)量奇缺或需要非常專業(yè)標(biāo)注方法的制造業(yè)場(chǎng)景時(shí),其中的數(shù)據(jù)獲取困難、標(biāo)注成本高等行業(yè)難題成為眾多AI公司快速商業(yè)化的桎梏。創(chuàng)新奇智針對(duì)這一難題展開(kāi)深入研究,獲得了突破性的創(chuàng)新結(jié)果,該結(jié)果對(duì)于數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)粗篩、輔助標(biāo)注、模型基本能力探索等方面有巨大的提升。
提交版本的摘要如截圖,中文意思如下:
深度學(xué)習(xí)可以利用大量的標(biāo)注數(shù)據(jù)來(lái)有效地提升實(shí)例分割的精度,但是在諸如醫(yī)療和工業(yè)領(lǐng)域,要么收集足夠的數(shù)據(jù)非常困難,要么標(biāo)注數(shù)據(jù)需要非常專業(yè)的知識(shí)。從這點(diǎn)出發(fā),我們提出了一個(gè)新的任務(wù)稱之為零樣本實(shí)例分割(Zero-Shot Instance Segmentation),文中簡(jiǎn)稱ZSI。ZSI的任務(wù)要求在訓(xùn)練過(guò)程中,只用已經(jīng)見(jiàn)過(guò)并有標(biāo)注的數(shù)據(jù)進(jìn)行訓(xùn)練,但在測(cè)試和推理時(shí)能夠同時(shí)分割出見(jiàn)過(guò)和沒(méi)見(jiàn)過(guò)的物體實(shí)例。我們先用數(shù)學(xué)語(yǔ)言對(duì)該任務(wù)進(jìn)行描述,然后提出了一個(gè)方法來(lái)解決ZSI的問(wèn)題。我們的方法包括零樣本檢測(cè)器(Zero-shot Detector)、語(yǔ)義蒙版頭(Semantic Mask Head)、背景感知RPN和背景同步策略。我們同時(shí)也提供了在MS-COCO數(shù)據(jù)集上的基準(zhǔn)測(cè)試。實(shí)驗(yàn)結(jié)果表明,我們提出的方法不僅在ZSI的任務(wù)上效果不錯(cuò),在零樣本檢測(cè)任務(wù)上也取得了比之前已有研究更好的表現(xiàn)。我們的方法可以作為一條堅(jiān)實(shí)的基準(zhǔn),能夠有效的幫助未來(lái)的研究者進(jìn)行零樣本實(shí)例分割的研究。
論文摘要截圖
1:引出并定義出現(xiàn)實(shí)世界中遇到的零樣本的實(shí)例分割任務(wù)。
2:針對(duì)零樣本實(shí)例分割任務(wù),提出應(yīng)對(duì)的算法,該算法是基于背景感知的檢測(cè)-分割框架。
3:定義了零樣本分割(ZSI)自己獨(dú)特的測(cè)試基準(zhǔn)。
4:測(cè)試結(jié)果表明在ZSD任務(wù)上超越了已有的方法,且在ZSI任務(wù)上的結(jié)果很有競(jìng)爭(zhēng)力。
圖1:零樣本實(shí)例分割示例
在零樣本實(shí)例分割中,開(kāi)始只使用標(biāo)注的數(shù)據(jù)(標(biāo)記為seen)作為訓(xùn)練集訓(xùn)練模型,在訓(xùn)練完模型之后,使模型對(duì)訓(xùn)練時(shí)候見(jiàn)到過(guò)(seen)的類別和模型訓(xùn)練的時(shí)候沒(méi)有見(jiàn)到(unseen)的類別分別進(jìn)行預(yù)測(cè)。在論文提出的方法中,如圖1,餐刀是在訓(xùn)練模型的時(shí)候見(jiàn)過(guò)的類別,叉子是在訓(xùn)練模型的時(shí)候沒(méi)有見(jiàn)過(guò)的類別,通過(guò)訓(xùn)練圖像模型,同時(shí)維持一個(gè)餐刀和叉子在語(yǔ)義層面的特征向量來(lái)進(jìn)行聯(lián)系。
整個(gè)零樣本實(shí)例分割的框架如圖2所示。對(duì)于一張輸入圖像來(lái)講,首先要使用骨干網(wǎng)絡(luò)(backbone),BA-RPN和ROI Align來(lái)提取視覺(jué)特征和背景的詞向量,然后經(jīng)過(guò)Sync-bg模塊后分別送入零樣本檢測(cè)器和語(yǔ)義分割頭,從而得到實(shí)例分割的結(jié)果。
圖2 零樣本實(shí)例分割的框架
零樣本檢測(cè)器的設(shè)計(jì)細(xì)節(jié)如圖3所示,采用了編碼-解碼結(jié)構(gòu),在測(cè)試/推理時(shí)只是用解碼器的Te
圖3 零樣本檢測(cè)器的設(shè)計(jì)細(xì)節(jié)
圖4:語(yǔ)義分割頭
語(yǔ)義分割頭的結(jié)構(gòu)如圖4所示,它是一個(gè)encoder-decoder的架構(gòu),在訓(xùn)練階段,使用encoder來(lái)把圖像的特征編碼到語(yǔ)義-文字特征向量。然后使用decoder把上面構(gòu)建的語(yǔ)義-文字特征向量去重建圖像的任務(wù):檢測(cè),分割等。
不同模塊的作用如表1所示,可以看到,每個(gè)模塊都對(duì)結(jié)果有一定的提升,當(dāng)按照論文提出的方法結(jié)合在一起時(shí),達(dá)到最佳的效果。
表1: 每個(gè)模塊的效果
首先如論文開(kāi)頭所說(shuō),該方法在Zero-shot Detection的任務(wù)(數(shù)據(jù)集是COCO)上也明顯超越了已有的state-of-the-art的結(jié)果,達(dá)到了新的SOTA。
對(duì)于ZSI和GZSI(即零樣本實(shí)例分割和通用零樣本實(shí)例分割)任務(wù)來(lái)講,論文的結(jié)果也非常不錯(cuò),見(jiàn)表3和表4
零樣本實(shí)例分割致力于解決工業(yè)場(chǎng)景中數(shù)據(jù)少,或者是數(shù)據(jù)難以發(fā)現(xiàn)和標(biāo)注的問(wèn)題,可以在沒(méi)有標(biāo)注數(shù)據(jù)的情況下標(biāo)注出新的類。但正如當(dāng)前階段的AI不可能自己學(xué)會(huì)完全沒(méi)見(jiàn)過(guò)的知識(shí)一樣,論文提出的方法采用了詞向量這個(gè)額外特征作為中間媒介,然后把問(wèn)題的核心轉(zhuǎn)換為如何利用額外特征在特征空間對(duì)齊視覺(jué)特征和語(yǔ)義信息,并遷移到?jīng)]有見(jiàn)過(guò)的新類上。
創(chuàng)新奇智CTO張發(fā)恩(論文作者之一)指出:“創(chuàng)新奇智提出的零樣本實(shí)例分割算法,是業(yè)界首次提出可以使用零樣本算法來(lái)做實(shí)例分割的方法,同時(shí)還能夠提升業(yè)界最新的零樣本檢測(cè)算法的準(zhǔn)確率。尤其是對(duì)創(chuàng)新奇智來(lái)說(shuō),深度耕耘智能制造,在很多場(chǎng)景下,視覺(jué)系統(tǒng)所產(chǎn)生的數(shù)據(jù)形式多樣,沒(méi)有統(tǒng)一標(biāo)準(zhǔn),很難直接使用深度學(xué)習(xí)的算法模型來(lái)使用。這個(gè)時(shí)候如果能夠使用零樣本學(xué)習(xí)的方法達(dá)到數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)粗篩、輔助標(biāo)注、模型基本能力探索等工作顯現(xiàn)的尤為重要。這也是我們做這項(xiàng)研究的初衷?!?/p>
創(chuàng)新奇智聚焦智能制造,致力用人工智能創(chuàng)新技術(shù)解決復(fù)雜的工業(yè)生產(chǎn)問(wèn)題,三年來(lái)已服務(wù)中冶賽迪、中鐵四局、中集、宗申、華電電科院等多家行業(yè)龍頭企業(yè),積累和沉淀了豐富的行業(yè)實(shí)踐,提出一系列能解決實(shí)際問(wèn)題的創(chuàng)新算法和產(chǎn)品或解決方案,如少樣本學(xué)習(xí)、零樣本實(shí)例分割、混合級(jí)聯(lián)實(shí)例分割算法、物理缺陷模擬等。在智能制造已成為國(guó)家戰(zhàn)略舉措的時(shí)代背景下,創(chuàng)新奇智將繼續(xù)在制造業(yè)領(lǐng)域精耕細(xì)作,打造更多的AI創(chuàng)新實(shí)踐。
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。