0
本文作者: 楊文 | 2017-07-27 23:03 | 專題:CVPR 2017 |
雷鋒網(wǎng)AI科技評論按: CVPR是全球頂級的三大計(jì)算機(jī)視覺會(huì)議之一,每年都會(huì)吸引世界各地著名院所的學(xué)者提交論文,國內(nèi)外從事計(jì)算機(jī)視覺和圖像處理相關(guān)領(lǐng)域的著名學(xué)者都以能在CVPR上發(fā)表論文為榮,這些學(xué)術(shù)論文也將引領(lǐng)著未來的研究趨勢。除了學(xué)術(shù)界以外,工業(yè)界也帶來了他們的研究成果。雷鋒網(wǎng)編輯挑選了來自工業(yè)界的四家公司入選的論文,分別作簡介和評論。
阿里巴巴共有四篇論文被 CVPR 2017 接收,其中阿里人工智能實(shí)驗(yàn)室 3 篇,阿里 iDST 1 篇;阿里巴巴人工智能實(shí)驗(yàn)室此次入選的三篇論文均有杰出科學(xué)家王剛的深度參與,分別針對深度學(xué)習(xí)和計(jì)算機(jī)視覺所涉及的上下文模擬、場景分割、行為理解等問題提出了解決辦法。
以下是對四篇論文的解讀:
Deep Level Sets for Salient Object Detection(結(jié)合深度網(wǎng)絡(luò)的水平集方法在顯著性目標(biāo)檢測中的應(yīng)用)
簡介:顯著性目標(biāo)檢測能夠幫助計(jì)算機(jī)發(fā)現(xiàn)圖片中最吸引人注意的區(qū)域,有效的圖像分割和圖像的語意屬性對顯著性目標(biāo)檢測非常重要。由南洋理工大學(xué)和阿里巴巴人工智能實(shí)驗(yàn)室合作,共同提出了一種結(jié)合深度網(wǎng)絡(luò)的水平集方法,將分割信息和語意信息進(jìn)行結(jié)合,獲得了很好的效果。水平集方法是處理封閉運(yùn)動(dòng)界面隨時(shí)間演化過程中幾何拓?fù)渥兓挠行У挠?jì)算工具,后來被用到圖像分割算法當(dāng)中。深度學(xué)習(xí)能夠很好的建模顯著性目標(biāo)的語意屬性,進(jìn)而進(jìn)行顯著性目標(biāo)檢測,但更多的語意屬性信息導(dǎo)致分割邊界的低層信息不準(zhǔn)確。論文巧妙的結(jié)合了深度網(wǎng)絡(luò)和水平集方法(Deep Level Sets),同時(shí)利用圖片低層的邊界信息以及高層的語意信息,在顯著性目標(biāo)檢測領(lǐng)域獲得了最好的效果。
Global Context-Aware Attention LSTM Networks for 3D Action Recognition(將全局上下文注意力機(jī)制引入長短時(shí)記憶網(wǎng)絡(luò)的3D動(dòng)作識別)
簡介:3D動(dòng)作識別能夠幫助計(jì)算及更好的理解人體動(dòng)作,未來可以作為人機(jī)交互的一種補(bǔ)充。一個(gè)好的3D動(dòng)作識別系統(tǒng)需要很好的處理動(dòng)作在時(shí)間(動(dòng)作需要一定時(shí)延)、空間(結(jié)構(gòu))上的信息。LSTM(長短時(shí)記憶網(wǎng)絡(luò))能夠很好的建模動(dòng)態(tài)的、相互依賴的時(shí)間序列數(shù)據(jù)(如人的3D動(dòng)作序列),注意力機(jī)制能夠更有效的獲取數(shù)據(jù)中的結(jié)構(gòu)信息,并排除掉噪聲的干擾。由南洋理工大學(xué)、北京大學(xué)、阿里巴巴人工智能實(shí)驗(yàn)室合作,論文結(jié)合LSTM和上下文注意力機(jī)制,提出了一種新的LSTM網(wǎng)絡(luò):GCA-LSTM(Global Context-Aware Attention LSTM);用來建模動(dòng)作序列中有效的全局上下文信息(時(shí)間信息+空間信息),進(jìn)而進(jìn)行3D動(dòng)作識別。同時(shí),論文為GCA-LSTM網(wǎng)絡(luò)提出了一種循環(huán)注意力機(jī)制來迭代提升注意力模型的效果。論文方法在3個(gè)主流的3D動(dòng)作識別數(shù)據(jù)集上都達(dá)到了最好的效果。
Episodic CAMN: Contextual Attention-based Memory Networks With Iterative Feedback For Scene Labeling(引入迭代反饋的上下文注意力機(jī)制記憶網(wǎng)絡(luò)在場景分割中的應(yīng)用)
簡介:場景分隔通常在自動(dòng)駕駛中應(yīng)用,通過對路面場景進(jìn)行分割,可以幫助無人車分析那部分區(qū)域是可行駛區(qū)域。也可以用于室內(nèi)機(jī)器人通過場景分割獲知室內(nèi)物體的分布。場景分割對待分割區(qū)域周圍的區(qū)域以及全局信息有較強(qiáng)的依賴關(guān)系,但這種依賴關(guān)系是動(dòng)態(tài)變化的(即使同一區(qū)域在不同的場景中對周圍信息的依賴是不同的),因此動(dòng)態(tài)的獲知不同區(qū)域的依賴關(guān)系以及圖像全局上下文特征的使用至關(guān)重要。由南洋理工大學(xué),伊利諾伊大學(xué)厄巴納-香檳分校,阿里巴巴人工智能實(shí)驗(yàn)室合作,論文通過一個(gè)可學(xué)習(xí)的注意力機(jī)制網(wǎng)絡(luò)來刻畫不同區(qū)域之間的依賴關(guān)系,并獲取包含上下文信息的特征。進(jìn)一步,論文通過引入迭代反饋的方式對注意力機(jī)制網(wǎng)絡(luò)的輸出進(jìn)行調(diào)節(jié),以獲得更好的包含上下文的特征。
Video to Shop: Exactly Matching Clothes in Videos to Online Shopping Images(從視頻到電商:視頻衣物精確檢索)
作者:Zhi-Qi Cheng、Xiao Wu、Yang Liu、華先勝(阿里iDST)
簡介:圍繞視頻電商業(yè)務(wù)場景,提出了一個(gè)在線視頻衣物精確檢索系統(tǒng)。該系統(tǒng)能夠滿足用戶在觀看影視劇時(shí)想要同時(shí)購買明星同款的需求。整個(gè)系統(tǒng)采用了目前最先進(jìn)的衣物檢測和跟蹤技術(shù)。針對明星同款檢索中存在的多角度、多場景、遮擋等問題。提出可變化的深度樹形結(jié)構(gòu)(Reconfigurable Deep Tree structure)利用多幀之間的相似匹配解決單一幀檢索存在的遮擋、模糊等問題。該結(jié)構(gòu)可以認(rèn)為是對現(xiàn)有 attention 模型的一種擴(kuò)展,可以用來解決多模型融合問題。
蘋果公司之前接受采訪時(shí)拒不透漏自家的AI進(jìn)度,外界甚至一度懷疑蘋果的AI技術(shù)落后于競爭對手。這次是奉行保密文化的蘋果公司對外發(fā)布的第一篇AI論文,標(biāo)志著蘋果公開AI學(xué)術(shù)研究成果、對外敞開大門的第一步。該論文發(fā)表于去年12月,提出了由三部分(模擬器Simulator,精制器Refiner,再加上一個(gè)判別器Discriminator)組成的 SimGAN訓(xùn)練方法,因此而獲得CVPR 2017最佳論文。不過,學(xué)術(shù)界有學(xué)者對這篇論文的含金量提出了質(zhì)疑,認(rèn)為蘋果這份論文“試水”的意義遠(yuǎn)大于研究本身的意義。具體可參考雷鋒網(wǎng)今年年初的報(bào)道。
論文題目:Learning From Simulated and Unsupervised Images through Adversarial Training
即“《借助對抗訓(xùn)練,從模擬、無監(jiān)督圖像中學(xué)習(xí)》”
作者:蘋果公司 Ashish Shrivastava,Tomas Pfister,Oncel Tuzel,Joshua Susskind,Wenda Wang,Russell Webb。
簡介:隨著圖像領(lǐng)域的進(jìn)步,用生成的圖像訓(xùn)練機(jī)器學(xué)習(xí)模型的可行性越來越高,大有避免人工標(biāo)注真實(shí)圖像的潛力。但是,由于生成的圖像和真實(shí)圖像的分布有所區(qū)別,用生成的圖像訓(xùn)練的模型可能沒有用真實(shí)圖像訓(xùn)練的表現(xiàn)那么好。為了縮小這種差距,論文中提出了一種模擬+無監(jiān)督的學(xué)習(xí)方式,其中的任務(wù)就是學(xué)習(xí)到一個(gè)模型,它能夠用無標(biāo)注的真實(shí)數(shù)據(jù)提高模擬器生成的圖片的真實(shí)性,同時(shí)還能夠保留模擬器生成的圖片的標(biāo)注信息。論文中構(gòu)建了一個(gè)類似于 GANs 的對抗性網(wǎng)絡(luò)來進(jìn)行這種模擬+無監(jiān)督學(xué)習(xí),只不過論文中網(wǎng)絡(luò)的輸入是圖像而不是隨機(jī)向量。為了保留標(biāo)注信息、避免圖像瑕疵、穩(wěn)定訓(xùn)練過程,論文中對標(biāo)準(zhǔn) GAN 算法進(jìn)行了幾個(gè)關(guān)鍵的修改,分別對應(yīng)“自我正則化”項(xiàng)、局部對抗性失真損失、用過往的美化后圖像更新鑒別器。
騰訊人工智能實(shí)驗(yàn)室曾經(jīng)喊出“學(xué)術(shù)有影響,工業(yè)有產(chǎn)出”的口號。從這次入選論文數(shù)量上看,BAT三家,數(shù)騰訊最多,共6篇被收錄。此次成果也可以算是對口號的前半句的一個(gè)有力回應(yīng)吧!
一:Real Time Neural Style Transfer for Videos(實(shí)時(shí)視頻風(fēng)格轉(zhuǎn)化實(shí)現(xiàn))
簡介:最近的研究工作已經(jīng)表明了使用前饋卷積神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)圖像快速風(fēng)格轉(zhuǎn)變的可行性。而清華大學(xué)與騰訊AI實(shí)驗(yàn)室的研究基于這一點(diǎn)在實(shí)踐上更近了一步,他們通過使用前饋網(wǎng)絡(luò)對視頻進(jìn)行風(fēng)格轉(zhuǎn)化,同時(shí)還保持了風(fēng)格化視頻幀圖像的時(shí)間一致性。在《實(shí)時(shí)視頻風(fēng)格轉(zhuǎn)化實(shí)現(xiàn)》這篇論文中,作者介紹到,他們所使用的前饋網(wǎng)絡(luò)是通過強(qiáng)制執(zhí)行連續(xù)幀的輸出既保持原有的風(fēng)格又具有良好的連續(xù)性進(jìn)行的訓(xùn)練得到的。更具體的,作者提出了一種混合損失(hybrid loss)理論,充分利用輸入畫面幀的畫面信息,圖像的風(fēng)格信息和連續(xù)幀的時(shí)間信息對圖像進(jìn)行處理。為了計(jì)算在訓(xùn)練階段的時(shí)間損失,作者提出了一種全新的兩幀協(xié)同訓(xùn)練的機(jī)制。與原先直接硬性的將已有的畫面風(fēng)格轉(zhuǎn)入視頻的方法相比,這種全新的方式摒除了原有方法對耗時(shí)優(yōu)化的依賴,即可保持畫面的時(shí)間連續(xù)性,又消除了畫面閃爍的問題,確保視頻風(fēng)格遷移實(shí)時(shí)、高質(zhì)、高效和完整性,從而實(shí)現(xiàn)更好的視覺欣賞效果。
二:WSISA: Making Survival Prediction from Whole Slide Histopathological Images
簡介:德州大學(xué)阿靈頓分校(University of Texas-Alington)與騰訊AI實(shí)驗(yàn)室提出了就基于病理圖片進(jìn)行的病人生存預(yù)測方法——WSISA,有效地支持大數(shù)據(jù)時(shí)代的精準(zhǔn)個(gè)性化醫(yī)療。作者提出了訓(xùn)練基于深度卷積生存(DeepConvSurv)預(yù)測結(jié)果的累積模型來記性病人層面的預(yù)測。與現(xiàn)有的基于圖像的生存模型相比不同的是,這種模型可以有效地提取和利用WSI上所有可進(jìn)行區(qū)分的小圖塊來進(jìn)行預(yù)測。在目前的研究領(lǐng)域,這種方法還未有人提出過。通過論文中的方法,作者用三種數(shù)據(jù)集對膠質(zhì)瘤和非小細(xì)胞肺癌的生存預(yù)測進(jìn)行了研究,研究結(jié)果證實(shí)了WSISA架構(gòu)可以極大程度的提高預(yù)測的精準(zhǔn)性。
三:SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning (SCA-CNN:卷積神經(jīng)網(wǎng)絡(luò)中的注意力模型)
簡介:由浙江大學(xué)、哥倫比亞大學(xué),山東大學(xué)、騰訊AI實(shí)驗(yàn)室和新加坡國立大學(xué)(National University of Singapore)聯(lián)合發(fā)表,針對圖像描述生成任務(wù),基于卷積網(wǎng)絡(luò)的多層特征來動(dòng)態(tài)生成文本描述,進(jìn)而提出了空間及頻道感知上的注意力模型。論文中,作者引入了一種新穎的卷積神經(jīng)網(wǎng)絡(luò),稱為SCA-CNN,其將空間和頻道感知注意力融合進(jìn)卷積神經(jīng)網(wǎng)絡(luò)。在實(shí)現(xiàn)給圖像增加字幕的任務(wù)時(shí),SCA-CNN動(dòng)態(tài)的調(diào)整在多層特征映射中句子生成的語境,從而編譯視覺注意力的兩個(gè)特征:where(即在所層疊中注意力的空間位置)和what(即吸引注意力的頻道)。論文通過三種benchmark的圖像字幕數(shù)據(jù)集對提出的SCA-CNN架構(gòu)進(jìn)行評估,包括:Flickr8K,F(xiàn)lickr30和MSCOCO。通過評估證實(shí)了基于SCA-CNN架構(gòu)進(jìn)行圖像字幕注解相對于目前已有方法的明顯優(yōu)勢
四:Deep Self-Taught Learning for Weakly Supervised Object Localization(用于所監(jiān)督對象定位的深度自學(xué)習(xí))
簡介:由新加坡國立大學(xué)(National University of Singapore)和騰訊AI實(shí)驗(yàn)室聯(lián)合發(fā)布的論文《用于所監(jiān)督對象定位的深度自學(xué)習(xí)》提出的依靠檢測器自身段改進(jìn)訓(xùn)練樣本質(zhì)量,不斷增強(qiáng)檢測器性能的一種全新的深度自學(xué)習(xí)方法,破解了所監(jiān)督目標(biāo)檢測問題中訓(xùn)練樣本質(zhì)量低的瓶頸。為了實(shí)現(xiàn)這樣的自學(xué)習(xí),文中提出了一個(gè)種子樣本采集方法,通過圖像到對象的傳輸和密集的子圖采集獲取可靠的正樣本來進(jìn)行探測器的初始化。作者進(jìn)一步的提供了一種在線支持樣本收集計(jì)劃來動(dòng)態(tài)地選擇最為可信的正樣本,并提供成熟的訓(xùn)練方法對探測器進(jìn)行訓(xùn)練。為了防止探測器在訓(xùn)練過程中陷入因過適應(yīng)而造成的困境中,作者還引入了一種方法來引導(dǎo)自學(xué)習(xí)過程。
五:Diverse Image Annotation(多樣圖像標(biāo)注)
簡介:該論文由沙特阿拉伯的阿布多拉國王科技大學(xué)與騰訊AI實(shí)驗(yàn)室聯(lián)合發(fā)表,提出了一種新的圖像自動(dòng)標(biāo)注方式,即用少量多樣性的標(biāo)簽表達(dá)盡量多的圖像信息,其充分利用標(biāo)簽之間的語義關(guān)系,從而使得自動(dòng)標(biāo)注的結(jié)果與人類標(biāo)注的結(jié)果更加相近。
六:Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images(對稱性和/或曼哈頓特性對單個(gè)和多個(gè)圖像進(jìn)行三維物體結(jié)構(gòu)設(shè)計(jì))
簡介:由騰訊AI實(shí)驗(yàn)室、約翰霍普金斯大學(xué)和加州大學(xué)洛杉磯分校聯(lián)合發(fā)表,其論述了利用對稱性和/或曼哈頓特性對單個(gè)和多個(gè)圖像進(jìn)行三維物體結(jié)構(gòu)設(shè)計(jì)的方法?;诼D結(jié)構(gòu)與對稱信息,文中提出了單張圖像三維重建及多張圖像Structure from Motion三維重建的新方法。
人工智能技術(shù)行業(yè)巨頭谷歌在此次CVPR 2017共有21篇論文入選,而國內(nèi)一家獨(dú)角獸公司商湯科技,它與香港中大-商湯科技聯(lián)合實(shí)驗(yàn)室共同發(fā)表的論文數(shù)量卻超越谷歌,達(dá)到驚人的23篇。這23篇論文涵蓋了計(jì)算機(jī)視覺的多個(gè)領(lǐng)域,提出了很多新型的應(yīng)用,在核心技術(shù)的研發(fā)上取得了多項(xiàng)國際領(lǐng)先的成果。下面雷鋒網(wǎng)AI科技評論著重介紹其中的三篇論文。
Quality Aware Network for Set to Set Recognition(因圖而異的融合網(wǎng)絡(luò))
論文簡介:在人臉識別、人體再識別任務(wù)中,現(xiàn)有的方法是利用卷積神經(jīng)網(wǎng)絡(luò)對一個(gè)序列中的所有圖像分別提取特征,再將特征進(jìn)行簡單的平均或池化,作為該序列的最終特征用于之后的識別。但實(shí)際應(yīng)用場景中一個(gè)序列中的圖像可能在許多方面存在著較大差異,例如光照、清晰度、角度等,如示例圖。由于在融合序列的特征時(shí)沒有考慮到這些差異,上述方法在實(shí)際應(yīng)用場景用會(huì)受這些因素的影響從而無法達(dá)到理想的效果。本論文提出了一種新的序列匹配方法,充分考慮了序列內(nèi)圖像的差異性,并利用深度學(xué)習(xí)的方法對這種差異性進(jìn)行無監(jiān)督的學(xué)習(xí),再根據(jù)學(xué)習(xí)到的質(zhì)量差異性對序列中的圖像特征進(jìn)行融合,最終得到具有較高判別力的序列特征,解決光照模糊等一系列實(shí)際應(yīng)用中的問題。
Person Search with Natural Language Description(用自然語言來進(jìn)行人的搜索)
論文簡介:大規(guī)模圖像庫檢索,通常提取圖像屬性特征再通過屬性檢索來找到目標(biāo)。但是常用場景比如嫌疑犯描述都是通過自然語言描述(人類能理解的語言)。本論文提出了使用自然語言描述進(jìn)行人的大庫檢索,如上圖所示,自然語言描述為“這位婦女穿著一件長而亮的橙色長袍,腰上系著一條白色腰帶。她把頭發(fā)挽成一個(gè)發(fā)髻或馬尾辮?!边@樣的描述要比用屬性來的豐富的多。這個(gè)系統(tǒng)定位人體圖像顯著視覺區(qū)域,同時(shí)把有意義的文本描述短語賦予顯著的視覺區(qū)域。通過學(xué)習(xí)圖像-語言關(guān)系,系統(tǒng)可以準(zhǔn)確得到自然語言查詢和相似度得分,從而大大提成查詢準(zhǔn)確率和效率。
Residual Attention Network for Image Classification (殘余注意網(wǎng)絡(luò)用來圖像分類)
論文簡介:該論文首次成功將極深卷積神經(jīng)網(wǎng)絡(luò)與人類視覺注意力機(jī)制進(jìn)行有效的結(jié)合。視覺注意力機(jī)制是人類視覺所特有的大腦信號處理機(jī)制。人類視覺通過快速掃描全局圖像獲得需要關(guān)注的目標(biāo)區(qū)域,而后重點(diǎn)獲取所需要關(guān)注的目標(biāo)信息,抑制其他無用信息。在計(jì)算機(jī)視覺任務(wù)中,如何將視覺注意力機(jī)制有效的嵌入到神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)并提升網(wǎng)絡(luò)性能成為亟待解決的問題。 Residual Attention Network,在圖像分類問題上,首次成功將極深卷積神經(jīng)網(wǎng)絡(luò)與人類視覺注意力機(jī)制進(jìn)行有效的結(jié)合,并取得了遠(yuǎn)超之前網(wǎng)絡(luò)結(jié)構(gòu)的準(zhǔn)確度與參數(shù)效率。
雷鋒網(wǎng)AI科技評論小結(jié):今年的CVPR大會(huì)是迄今為止規(guī)模最大的一屆,其中提交論文數(shù)量最多,收錄論文數(shù)量最多則直接反映了CVPR的學(xué)術(shù)影響力。商湯科技能有23篇論文被選中,除了論文質(zhì)量高以外,也和今年大會(huì)的論文收錄數(shù)量直線增長有關(guān)。BAT三巨頭,百度并沒有論文收錄的消息,是沒有提交論文,還是因?yàn)樘峤缓鬀]有入選,不得而知。另外,AI科技評論從錄取的論文中發(fā)現(xiàn),能顯著提高CV在現(xiàn)實(shí)場景中的應(yīng)用水平,以及將CV與最新的大眾化應(yīng)用相結(jié)合(如視頻精確檢索和淘寶購物聯(lián)系起來),則最受評委的青睞。另外工業(yè)界和知名大學(xué)研究院聯(lián)合發(fā)表論文也能提高論文的通過率。
工業(yè)界中,國內(nèi)除了BAT三家互聯(lián)網(wǎng)巨頭參加外,還有很多的初創(chuàng)企業(yè),像文中提到的商湯科技,還有自動(dòng)駕駛公司馭勢,Momenta等等。這些企業(yè)參加CVPR除了展示自家學(xué)術(shù)研究,以及了解借鑒最新科研成果外,還有一個(gè)最大的原因就是搶奪計(jì)算機(jī)視覺領(lǐng)域內(nèi)的人才。各大企業(yè)展區(qū),可以說是HR的競技場!
雷鋒網(wǎng)AI科技評論
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章