0
本文作者: 雪莉?休斯敦 | 編輯:郭奕欣 | 2017-07-23 13:40 | 專題:CVPR 2017 |
CVPR是近十年來計(jì)算機(jī)視覺領(lǐng)域全球最有影響力、內(nèi)容最全面的頂級(jí)學(xué)術(shù)會(huì)議,由全球最大的非營(yíng)利性專業(yè)技術(shù)學(xué)會(huì)IEEE(電氣和電子工程師協(xié)會(huì))主辦。2017谷歌學(xué)術(shù)指標(biāo)(Google Scholar)按論文引用率排名, CVPR位列計(jì)算機(jī)視覺領(lǐng)域榜首。據(jù)雷鋒網(wǎng)AI科技評(píng)論了解,今年CVPR審核了2620篇文章,最終收錄783篇,錄取率29%,口頭報(bào)告錄取率僅2.65%。
騰訊AI Lab計(jì)算機(jī)視覺總監(jiān)劉威博士介紹到,「CVPR的口頭報(bào)告一般是當(dāng)年最前沿的研究課題,在學(xué)界和工業(yè)界都影響很大,每年都集齊如斯坦福大學(xué)和谷歌等全球最知名高校和科技公司。
今年,騰訊AI Lab有六篇論文入選CVPR,下面雷鋒網(wǎng)AI科技評(píng)論將逐一介紹這幾篇論文的摘要。
最近的研究工作已經(jīng)表明了使用前饋卷積神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)圖像快速風(fēng)格轉(zhuǎn)變的可行性。而清華大學(xué)與騰訊AI實(shí)驗(yàn)室的研究基于這一點(diǎn)在實(shí)踐上更近了一步,他們通過使用前饋網(wǎng)絡(luò)對(duì)視頻進(jìn)行風(fēng)格轉(zhuǎn)化,同時(shí)還保持了風(fēng)格化視頻幀圖像的時(shí)間一致性。在《實(shí)時(shí)視頻風(fēng)格轉(zhuǎn)化實(shí)現(xiàn)》這篇論文中,作者介紹到,他們所使用的前饋網(wǎng)絡(luò)是通過強(qiáng)制執(zhí)行連續(xù)幀的輸出既保持原有的風(fēng)格又具有良好的連續(xù)性進(jìn)行的訓(xùn)練得到的。更具體的,作者提出了一種混合損失(hybrid loss)理論,充分利用輸入畫面幀的畫面信息,圖像的風(fēng)格信息和連續(xù)幀的時(shí)間信息對(duì)圖像進(jìn)行處理。為了計(jì)算在訓(xùn)練階段的時(shí)間損失,作者提出了一種全新的兩幀協(xié)同訓(xùn)練的機(jī)制。與原先直接硬性的將已有的畫面風(fēng)格轉(zhuǎn)入視頻的方法相比,這種全新的方式摒除了原有方法對(duì)耗時(shí)優(yōu)化的依賴,即可保持畫面的時(shí)間連續(xù)性,又消除了畫面閃爍的問題,確保視頻風(fēng)格遷移實(shí)時(shí)、高質(zhì)、高效和完整性,從而實(shí)現(xiàn)更好的視覺欣賞效果。
論文鏈接:Real Time Neural Style Transfer for Videos
德州大學(xué)阿靈頓分校(University of Texas-Alington)與騰訊AI實(shí)驗(yàn)室提出了就基于病理圖片進(jìn)行的病人生存預(yù)測(cè)方法——WSISA,有效地支持大數(shù)據(jù)時(shí)代的精準(zhǔn)個(gè)性化醫(yī)療。眾所周知的是,基于圖像的精準(zhǔn)醫(yī)院技術(shù)很早就進(jìn)入人們的視野,并可通過這種技術(shù)對(duì)癌癥病人進(jìn)行更好的治療。然而,病理組織學(xué)的整幅圖像(WSI,Whole Slide Histopathological Image)的千兆像素(gigapixel)分辨率在計(jì)算量上否定了傳統(tǒng)生存模型在該領(lǐng)域的可行性。這種模型通常需要進(jìn)行手動(dòng)標(biāo)記,并需在感興趣的區(qū)域(ROI,Region of Interest)進(jìn)行區(qū)分,因此,在千兆像素的圖像中,計(jì)算機(jī)無法直接的通過區(qū)分出來的圖塊進(jìn)行學(xué)習(xí)。另外,由于腫瘤的異質(zhì)性,通過一小部分的圖塊并不能完全代表病人的生存狀態(tài)。同時(shí),用于生存預(yù)測(cè)訓(xùn)練的病人樣本通常不足。這都給生存預(yù)測(cè)帶來難點(diǎn)。在這篇論文中,作者提出了一種有效的分析框架克服了上文介紹的難點(diǎn),即WSISA,全尺寸、無標(biāo)注、基于病理圖片的病人生存有效預(yù)測(cè)方法。首先通過自適應(yīng)采樣方法提取每個(gè)WSI上的各個(gè)小圖塊(patch),然后將小圖塊進(jìn)行分組劃分簇。作者提出了訓(xùn)練基于深度卷積生存(DeepConvSurv)預(yù)測(cè)結(jié)果的累積模型來記性病人層面的預(yù)測(cè)。與現(xiàn)有的基于圖像的生存模型相比不同的是,這種模型可以有效地提取和利用WSI上所有可進(jìn)行區(qū)分的小圖塊來進(jìn)行預(yù)測(cè)。在目前的研究領(lǐng)域,這種方法還未有人提出過。通過論文中的方法,作者用三種數(shù)據(jù)集對(duì)膠質(zhì)瘤和非小細(xì)胞肺癌的生存預(yù)測(cè)進(jìn)行了研究,研究結(jié)果證實(shí)了WSISA架構(gòu)可以極大程度的提高預(yù)測(cè)的精準(zhǔn)性。
論文鏈接:WSISA: Making Survival Prediction from Whole Slide Histopathological Images
由新加坡國(guó)立大學(xué)(National University of Singapore)和騰訊AI實(shí)驗(yàn)室聯(lián)合發(fā)布的論文《用于所監(jiān)督對(duì)象定位的深度自學(xué)習(xí)》提出的依靠檢測(cè)器自身段改進(jìn)訓(xùn)練樣本質(zhì)量,不斷增強(qiáng)檢測(cè)器性能的一種全新的深度自學(xué)習(xí)方法,破解了所監(jiān)督目標(biāo)檢測(cè)問題中訓(xùn)練樣本質(zhì)量低的瓶頸。大多數(shù)現(xiàn)有的弱監(jiān)督定位(WSL)方法通過對(duì)圖像級(jí)別的監(jiān)督學(xué)習(xí)識(shí)別到的特征區(qū)塊來進(jìn)行探測(cè)器的學(xué)習(xí)。然而,這些特征不包含空間位置的相關(guān)信息,同時(shí)對(duì)探測(cè)器的學(xué)習(xí)來說,其所提供的樣本數(shù)據(jù)質(zhì)量都比較差。為了克服這樣的問題,本文提出了一種深度自學(xué)習(xí)方法,是檢測(cè)器學(xué)習(xí)獲取可靠的樣本對(duì)象特征并以此為基礎(chǔ)重新訓(xùn)練自己。相應(yīng)的,隨著探測(cè)器本身檢測(cè)能力的提高和提供的位置信息質(zhì)量的提高,于是便能進(jìn)一步的提高較好質(zhì)量的數(shù)據(jù)。為了實(shí)現(xiàn)這樣的自學(xué)習(xí),文中提出了一個(gè)種子樣本采集方法,通過圖像到對(duì)象的傳輸和密集的子圖采集獲取可靠的正樣本來進(jìn)行探測(cè)器的初始化。作者進(jìn)一步的提供了一種在線支持樣本收集計(jì)劃來動(dòng)態(tài)地選擇最為可信的正樣本,并提供成熟的訓(xùn)練方法對(duì)探測(cè)器進(jìn)行訓(xùn)練。為了防止探測(cè)器在訓(xùn)練過程中陷入因過適應(yīng)而造成的困境中,作者還引入了一種方法來引導(dǎo)自學(xué)習(xí)過程?;赑ASCAL 2007和2012的實(shí)驗(yàn)結(jié)果則證實(shí)了這種方法相較于現(xiàn)有方法的顯著效率優(yōu)勢(shì)。
論文鏈接:Deep Self-Taught Learning for Weakly Supervised Object Localization
由沙特阿拉伯的阿布多拉國(guó)王科技大學(xué)與騰訊AI實(shí)驗(yàn)室聯(lián)合發(fā)表的論文《多樣圖像標(biāo)注》提出了一種新的圖像自動(dòng)標(biāo)注方式,即用少量多樣性的標(biāo)簽表達(dá)盡量多的圖像信息,其充分利用標(biāo)簽之間的語義關(guān)系,從而使得自動(dòng)標(biāo)注的結(jié)果與人類標(biāo)注的結(jié)果更加相近。DIA(多樣圖樣標(biāo)注)的目標(biāo)是使用有限數(shù)量的標(biāo)簽對(duì)圖像進(jìn)行描述,因此,使用的標(biāo)簽需要涵蓋盡可能多的有用信息。相比于常規(guī)性的圖像標(biāo)注任務(wù),DIA要求的標(biāo)簽不僅是對(duì)圖像的代表信息,還需要相互關(guān)聯(lián),從而減少冗余。為了實(shí)現(xiàn)這一目標(biāo),作者吧DIA設(shè)定為子集選擇問題,并基于有條件的DPP(Determinantal Point Process行列式點(diǎn)處理)模型(其同時(shí)具備代表性representation和多樣性diversity)。通過進(jìn)一步地在候選標(biāo)簽中探索語義層次和同義詞來選擇適宜的語義連接路徑。即為,在進(jìn)行標(biāo)簽選擇時(shí),對(duì)同一個(gè)圖像進(jìn)行標(biāo)注時(shí)拋棄那些相近的語義,避免同時(shí)出現(xiàn)。這種限制正是被嵌入在有條件的DPP模型算法中。傳統(tǒng)標(biāo)注方法中,標(biāo)簽的選擇則僅關(guān)注了整體圖像的代表性(包括:準(zhǔn)確性,查全率和F1得分)而正忽略了標(biāo)簽的多樣性特征。因此,本論文所提出的新的方法是在傳統(tǒng)方法基礎(chǔ)上的一大提升。通過另一衍生主題的研究,可以證實(shí)文中所提出的方法與人類標(biāo)注的模式更為相近?;趦蓚€(gè)benchmark數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果則證實(shí)了通過這種方法做出的多樣性圖像標(biāo)注更讓人滿意。
這是一篇由騰訊AI實(shí)驗(yàn)室、約翰霍普金斯大學(xué)和加州大學(xué)洛杉磯分校聯(lián)合發(fā)表的論文,其論述了利用對(duì)稱性和/或曼哈頓特性對(duì)單個(gè)和多個(gè)圖像進(jìn)行三維物體結(jié)構(gòu)設(shè)計(jì)的方法。許多人工設(shè)計(jì)制造的物體都具有內(nèi)在對(duì)稱性和曼哈頓結(jié)構(gòu)特性。這篇論文建立通過假設(shè)一個(gè)正交投影模型,當(dāng)單幅或多幅圖像均來自從一個(gè)類別的物體,比如,不同的汽車,提出了一個(gè)使用對(duì)稱性和曼哈頓特性對(duì)三維空間模型進(jìn)行估計(jì)的方法。通過分析,僅使用單幅圖像中的曼哈頓特性就足以將所對(duì)應(yīng)的相機(jī)投影進(jìn)行恢復(fù),同時(shí),再使用對(duì)稱性將其3D結(jié)構(gòu)進(jìn)行恢復(fù)。然而,因?yàn)閱我粓D像的閉塞性,很難從其中提取曼哈頓特性。延伸到多個(gè)圖像的狀態(tài),則可以使用物體的對(duì)稱性,這時(shí)不再需要曼哈頓軸。因此,通過這樣的思路,作者提出了一種新的剛性結(jié)構(gòu),它利用運(yùn)動(dòng)方法,利用物體的對(duì)稱性和使用同一個(gè)分類的多幅圖像作為輸入,從而進(jìn)行三維物體的結(jié)構(gòu)設(shè)計(jì)。通過Pascal3D+數(shù)據(jù)集的實(shí)驗(yàn)證實(shí)了這種方法相較于一般方法的明顯優(yōu)勢(shì)。
由浙江大學(xué)、哥倫比亞大學(xué),山東大學(xué)、騰訊AI實(shí)驗(yàn)室和新加坡國(guó)立大學(xué)(National University of Singapore)聯(lián)合發(fā)表的論文《SCA-CNN:卷積神經(jīng)網(wǎng)絡(luò)中的注意力模型》針對(duì)圖像描述生成任務(wù),基于卷積網(wǎng)絡(luò)的多層特征來動(dòng)態(tài)生成文本描述,進(jìn)而提出了空間及頻道感知上的注意力模型。當(dāng)前,視覺注意力已經(jīng)成功的應(yīng)用于結(jié)構(gòu)預(yù)測(cè)的任務(wù),比如:視覺字幕和問答功能?,F(xiàn)有的視覺注意力模型通常是基于空間的,即通過對(duì)視覺注意力的空間概率建模重置對(duì)輸入圖像進(jìn)行編碼的卷積神經(jīng)網(wǎng)絡(luò)(CNN)的最后一個(gè)轉(zhuǎn)換層特征映射。然而,研究認(rèn)為,這種空間注意力不一定符合注意力機(jī)制,即結(jié)合語境固定時(shí)間的動(dòng)態(tài)特征提取,因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)的特征是自然空間的,頻道感知的和多層的。在這篇論文中,作者引入了一種新穎的卷積神經(jīng)網(wǎng)絡(luò),稱為SCA-CNN,其將空間和頻道感知注意力融合進(jìn)卷積神經(jīng)網(wǎng)絡(luò)。在實(shí)現(xiàn)給圖像增加字幕的任務(wù)時(shí),SCA-CNN動(dòng)態(tài)的調(diào)整在多層特征映射中句子生成的語境,從而編譯視覺注意力的兩個(gè)特征:where(即在所層疊中注意力的空間位置)和what(即吸引注意力的頻道)。論文通過三種benchmark的圖像字幕數(shù)據(jù)集對(duì)提出的SCA-CNN架構(gòu)進(jìn)行評(píng)估,包括:Flickr8K,F(xiàn)lickr30和MSCOCO。通過評(píng)估證實(shí)了基于SCA-CNN架構(gòu)進(jìn)行圖像字幕注解相對(duì)于目前已有方法的明顯優(yōu)勢(shì)。
論文鏈接:SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning
雷鋒網(wǎng)整理編譯
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章