0
本文作者: 奕欣 | 2018-03-05 11:56 | 專題:CVPR 2018 |
雷鋒網(wǎng) AI 科技評論按:本文作者郭瑞娥,首發(fā)于中科院自動(dòng)化所「智能感知與計(jì)算研究中心」微信公眾號,AI 科技評論獲授權(quán)轉(zhuǎn)載。
CVPR 是計(jì)算機(jī)視覺、模式識(shí)別和人工智能領(lǐng)域國際頂級會(huì)議,2018 年 6 月 18-22 日將在美國鹽湖城召開,屆時(shí) AI 科技評論也會(huì)在現(xiàn)場帶來一線報(bào)道。不論你是論文錄用作者,還是即將參會(huì)的企業(yè)機(jī)構(gòu),歡迎聯(lián)系 AI 科技評論小編(微信號:aitechreview)報(bào)道/合作喲。
智能感知與計(jì)算研究中心為中科院自動(dòng)化所獨(dú)立建制的科研部門,致力于研究泛在智能感知理論與技術(shù)以及與之相伴的海量感知數(shù)據(jù)的智能分析與處理。智能感知與計(jì)算研究中心在今年的 CVPR 2018 上共有 11 篇論文被接收,再次創(chuàng)下歷史新高。
論文 1 Dynamic Feature Learning for Partial Face Recognition
Lingxiao He, Haiqing Li, Qi Zhang, Zhenan Sun
在視頻監(jiān)控,移動(dòng)手機(jī)等場景中,部分人臉識(shí)別是一個(gè)非常重要的任務(wù)。然而,很少有方法研究部分人臉塊識(shí)別。我們提出一種動(dòng)態(tài)特征匹配方法來解決部分人臉識(shí)別問題,它結(jié)合全卷積網(wǎng)絡(luò)和稀疏表達(dá)分類。首先,利用全卷積網(wǎng)絡(luò)提取 Gallery 和 Probe 的特征圖;其次,利用一個(gè)大小滑動(dòng)窗口把 Gallery 的特征圖分解為與 Probe 特征圖大小相同的子特征圖,進(jìn)而動(dòng)態(tài)特征字典;最后,利用稀疏表達(dá)分類來匹配 Probe 特征圖與動(dòng)態(tài)特征字典的相似度?;趧?dòng)態(tài)特征匹配方法,我們提出了滑動(dòng)損失來優(yōu)化全卷積網(wǎng)絡(luò)。該損失減小類內(nèi)變化,增加了類間變化,從而提高動(dòng)態(tài)特征匹配的性能。相比于其他部分人臉識(shí)別方法,我們提出的動(dòng)態(tài)匹配方法取得很好的性能。
動(dòng)態(tài)特征匹配的部分人臉識(shí)別框架
論文 2 Deep Spatial Feature Reconstruction for Partial Person Re-identification: Freestyle Approach
Lingxiao He, Jian Liang, Haiqing Li, Zhenan Sun
部分行人再識(shí)別是一個(gè)非常重要并且具有挑戰(zhàn)性的問題。在無約束環(huán)境中,行人容易被遮擋,有姿態(tài)和視角變化,所以有時(shí)候只有部分可見的行人圖像可用于識(shí)別。然而,很少有研究提出一種可以識(shí)別部分行人的方法。我們提出了一種快速且精確的方法來處理部分行人再識(shí)別的問題。提出的方法利用全卷積網(wǎng)絡(luò)抽取與輸入圖像尺寸相對應(yīng)的空域特征圖,這樣輸入的圖像沒有尺寸約束。為了匹配一對不同尺寸大小的行人圖像,我們提出了一種不需要行人對齊的方法:深度空域特征重建。特別地,我們借鑒字典學(xué)習(xí)中重建誤差來計(jì)算不同的空域特征圖的相似度。按照這種匹配方式,我們利用端到端學(xué)習(xí)方法增大來自于同一個(gè)人的圖像對的相似度,反之亦然。由此可見,我們方法不需要對齊,對輸入圖像尺寸沒有限制。我們在 Partial REID,Partial iLIDS 和 Market1501 上取得很好的效果。
深度空域特征重建
論文 3 Adversarially Occluded Samples For Improving Generalization of Person Re-identification Models
Houjing Huang, Dangwei Li, ZhangZhang, Kaiqi Huang
行人再識(shí)別(ReID)是跨攝像機(jī)行人檢索任務(wù),由于存在光照變化、視角變化、遮擋等復(fù)雜因素,目前的模型往往在訓(xùn)練階段達(dá)到了很高的準(zhǔn)確率,但是測試階段的性能卻不盡人意。為了提高模型的泛化性能,我們提出了一種特殊的樣本來擴(kuò)充數(shù)據(jù)集:對抗式遮擋樣本。
整個(gè)方法流程如下:(1)按照常用的方法訓(xùn)練一個(gè) ReID 模型;(2)通過網(wǎng)絡(luò)可視化的方法找出模型在識(shí)別訓(xùn)練樣本時(shí)所關(guān)注的區(qū)域,對這些區(qū)域進(jìn)行(部分)遮擋就可以產(chǎn)生新的樣本,同時(shí)我們保持這些樣本原有的類別標(biāo)簽;(3)最后,把新的樣本加入到原始數(shù)據(jù)集中,按照之前的方法訓(xùn)練一個(gè)新的模型。這種樣本不僅模擬了現(xiàn)實(shí)中的遮擋情況,而且對于模型來說是困難樣本,可以給模型的訓(xùn)練提供動(dòng)量,從而跳出局部極小點(diǎn),減少模型的過擬合。實(shí)驗(yàn)發(fā)現(xiàn),原始的 ReID 模型識(shí)別訓(xùn)練樣本時(shí)只關(guān)注一些局部的身體區(qū)域,加入新樣本訓(xùn)練后的模型則可以同時(shí)關(guān)注到一些之前沒關(guān)注的身體區(qū)域,從而提高了模型在測試階段的魯棒性。下圖是該方法的一個(gè)具體實(shí)現(xiàn),其中 ReID 采用 ID 多分類模型,模型可視化方法采用滑動(dòng)窗口遮擋的方法。
基于對抗式遮擋的數(shù)據(jù)擴(kuò)增算法流程圖
論文 4 Learning Semantic Concepts and Order for Image and Sentence Matching
Yan Huang, Qi Wu, Liang Wang
圖像文本匹配的關(guān)鍵問題在于如何準(zhǔn)確度量圖像文本之間的跨模態(tài)相似度。我們通過數(shù)據(jù)分析發(fā)現(xiàn):圖像文本之所以能夠匹配,主要是由于如下兩點(diǎn)原因:1)圖像文本雖體現(xiàn)不同的模態(tài)特性,但他們包含共同的語義概念;2)語義概念的集合并不是無序的,而是按照一定的語義順序組織起來的。由此,我們提出了一個(gè)模型來聯(lián)合對圖像文本所包含的語義概念和語義順序進(jìn)行學(xué)習(xí)。該模型使用了一個(gè)多標(biāo)簽區(qū)域化的卷積網(wǎng)絡(luò)來對任意圖像預(yù)測其所包含的語義概念集合。然后,基于得到的語義概念將其有規(guī)律地排列起來,即學(xué)習(xí)語義順序。這一過程具體是通過聯(lián)合圖像文本匹配和生成的策略來實(shí)現(xiàn)的。此外,還探究了局部語義概念與全局上下文信息之間的互補(bǔ)作用,以及對文本生成的影響。我們在當(dāng)前主流的圖像文本匹配數(shù)據(jù)庫 Flickr30k 和 MSCOCO 上進(jìn)行了大量實(shí)驗(yàn),驗(yàn)證了我們所提出方法的有效性,并取得了當(dāng)前最好的跨模態(tài)檢索結(jié)果。
聯(lián)合圖像語義概念和語義順序?qū)W習(xí)框架
論文 5 A2-RL: Aesthetics Aware Reinforcement Learning for Image Cropping
Debang Li,Huikai Wu,Junge Zhang,Kaiqi Huang
隨著當(dāng)前圖像數(shù)據(jù)量的不斷增長,對圖像進(jìn)行自動(dòng)處理的需求也逐漸變大,而圖像裁剪是圖像處理中的一個(gè)十分重要的步驟。圖像自動(dòng)裁剪技術(shù)不僅能夠快速的完成對大多數(shù)圖片的處理,同時(shí)還能夠輔助專業(yè)攝像師找到更好的視角來提升圖像的構(gòu)圖質(zhì)量,其具有十分大的應(yīng)用價(jià)值。由于圖像裁剪的數(shù)據(jù)標(biāo)注較難獲得,而且一般數(shù)據(jù)量較少,我們提出了一種基于強(qiáng)化學(xué)習(xí)的弱監(jiān)督(不需要裁剪框標(biāo)注)圖像自動(dòng)裁剪算法 A2-RL。之前的弱監(jiān)督自動(dòng)裁剪算法大部分使用滑動(dòng)窗口來獲取候選區(qū)域,其需要耗費(fèi)較大的計(jì)算資源和時(shí)間,為了解決上述問題,我們將強(qiáng)化學(xué)習(xí)引入到自動(dòng)裁剪中,使用一個(gè)智能體(agent)在輸入圖像上自適應(yīng)的調(diào)整候選區(qū)域的位置和大小。該智能體以圖像的全局特征和局部特征作為觀測信息,并且根據(jù)當(dāng)前和歷史的觀測作為依據(jù)來決定下一步的動(dòng)作。在訓(xùn)練過程中,該智能體根據(jù)圖像質(zhì)量的評分計(jì)算獎(jiǎng)勵(lì),并使用 A3C 算法進(jìn)行訓(xùn)練,最終學(xué)到較好的候選區(qū)域調(diào)整策略。在實(shí)驗(yàn)過程中,我們的方法在多個(gè)標(biāo)準(zhǔn)的裁剪數(shù)據(jù)集上進(jìn)行了測試,其不僅在速度上取得了較大的提升,同時(shí)在精度上也有明顯的提高。我們方法的整體框架圖為:
基于強(qiáng)化學(xué)習(xí)的圖像自動(dòng)裁剪模型架構(gòu)
論文 6 Discriminative Learning of Latent Features for Zero-Shot Recognition
Yan Li, Junge Zhang, Kaiqi Huang, Jianguo Zhang
零樣本學(xué)習(xí)(Zero-Shot Learning)通過在視覺和語義兩個(gè)空間之間學(xué)習(xí)一個(gè)共同的嵌入式空間,能夠?qū)崿F(xiàn)對測試集中的未知類別進(jìn)行測試。以往的零樣本工作,主要集中在嵌入式空間學(xué)習(xí)過程中,忽略了視覺特征、語義特征在零樣本學(xué)習(xí)中的作用。我們針對傳統(tǒng)的零樣本學(xué)習(xí)過程中,特征表達(dá)區(qū)分度不足的問題,從視覺空間和語義空間兩個(gè)方面提出了改進(jìn)方法,在兩個(gè)空間同時(shí)學(xué)習(xí)到區(qū)分度更強(qiáng)的特征表達(dá),進(jìn)而極大地提升了零樣本學(xué)習(xí)的識(shí)別性能。具體來說,1)在視覺空間,我們提出了 zoom net,從原始的圖片中,自動(dòng)挖掘具有區(qū)分度的圖片區(qū)域。2)在語義空間,除了用戶定義的屬性之外,我們利用 triplet loss,自動(dòng)地學(xué)習(xí)具有區(qū)分度的「隱式屬性」。3)最終,圖片空間中的區(qū)分性區(qū)域挖掘,以及語義空間中的區(qū)分性隱屬性學(xué)習(xí)兩個(gè)模塊在一個(gè)端到端框架中聯(lián)合學(xué)習(xí),共同促進(jìn)。
用于零樣本學(xué)習(xí)的隱式判別性特征挖掘框架
論文 7 Pose-Guided Photorealistic Face Rotation
Yibo Hu, Xiang Wu, Bin Yu, Ran He, Zhenan Sun
隨著深度學(xué)習(xí)的發(fā)展,人臉識(shí)別算法的性能得到了廣泛提升,然而大姿態(tài)人臉識(shí)別問題依然亟待解決。人臉旋轉(zhuǎn)為人臉識(shí)別中的大姿態(tài)問題提供了一種有效的解決方式。我們提出了一種任意角度的人臉旋轉(zhuǎn)算法 Couple-Agent Pose-Guided Generative Adversarial Network (CAPG-GAN)。CAPG-GAN 通過人臉關(guān)鍵點(diǎn)編碼姿態(tài)信息指導(dǎo)對抗生成網(wǎng)絡(luò)進(jìn)行人臉生成任務(wù)。同時(shí)使用身份保持損失函數(shù)和全變分正則項(xiàng)約束人臉的身份信息和局部紋理信息。最終我們的算法在 Multil-PIE 和 LFW 上均取得了不錯(cuò)的識(shí)別率,同時(shí)如圖所示,CAPG-GAN 可以根據(jù)人臉關(guān)鍵編碼信息生成任意角度人臉。
不同姿態(tài)人臉圖像生成結(jié)果
論文 8 Multistage Adversarial Losses for Pose-Based Human Image Synthesis
Chenyang Si, Wei Wang, Liang Wang, Tieniu Tan
單張圖片的多視角圖像合成在計(jì)算機(jī)視覺中是一個(gè)非常重要并且具有挑戰(zhàn)性的問題,而且對于人的多視角圖像合成在對人體行為理解中具有很重要的應(yīng)用價(jià)值。利用人的多視角合成可以有效地解決在計(jì)算機(jī)視覺中存在的跨視角問題,例如跨視角行為識(shí)別、跨視角行人再識(shí)別等等。由于人姿態(tài)的多變性,人的多視角圖像合成比剛性物體(如車、椅子等等)的多視角合成更具有挑戰(zhàn)性。我們提出了多階段對抗損失函數(shù)在基于人體關(guān)鍵點(diǎn)的多視角人體圖像合成算法,該算法可以生成高質(zhì)量多視角人體圖像,而且可以保持合成人的姿態(tài)在三維空間中保持一致。為了可以生成高質(zhì)量圖像,我們提出從低維度人體結(jié)構(gòu)到圖像前景,最后合成背景的多階段圖像生成模型,為了解決均方誤差損失函數(shù)引起的圖像模糊的問題,我們在多階段使用對抗損失函數(shù)。我們的算法如圖所示:
基于pose的多階段對抗學(xué)習(xí)的人體圖像合成網(wǎng)絡(luò)框架
論文 9 Mask-guided Contrastive Attention Model for Person Re-Identification
Chunfeng Song, Yan Huang, Wanli Ouyang, and Liang Wang
行人再識(shí)別問題是一個(gè)重要且具有挑戰(zhàn)性的經(jīng)典計(jì)算機(jī)視覺任務(wù)。通常攝像頭采集到的行人圖像中含有雜亂的背景,并且圖像中的行人通常有多種多樣的姿態(tài)和視角,這些多樣性造成的困難在之前的研究中都尚未得到很好的解決。為了解決上述問題,我們引進(jìn)了二值化的行人分割輪廓圖作為額外輸入,并與彩色圖像合成為四通道的新輸入,然后設(shè)計(jì)了一種基于分割輪廓圖的對比注意模型來學(xué)習(xí)背景無關(guān)的行人特征。在此基礎(chǔ)上,我們提出了一種區(qū)域級別的三元組損失函數(shù),分別來約束來自全圖區(qū)域、行人身體區(qū)域、背景區(qū)域的特征,提出的損失函數(shù)可以讓來自全圖區(qū)域和行人身體區(qū)域的特征在特征空間靠近,并遠(yuǎn)離背景區(qū)域,最終達(dá)到去除背景的作用。所提出的方法在三個(gè)行人再識(shí)別數(shù)據(jù)集上驗(yàn)證了有效性,取得了當(dāng)前最好的性能。
二值化分割輪廓與區(qū)域級別三元組約束示意圖
論文 10 M^3: Multimodal Memory Modelling for Video Captioning
Junbo Wang, Wei Wang, Yan Huang, Liang Wang, Tieniu Tan
視頻描述對于理解視覺與語言是十分重要的一環(huán),同時(shí)也是很有挑戰(zhàn)性的任務(wù)。它有很多的實(shí)際應(yīng)用價(jià)值,包括人機(jī)交互、視頻檢索、為盲人轉(zhuǎn)述視頻等。針對這一問題,我們提出了一個(gè)多模態(tài)記憶模型用于視頻描述,這一模型建立了視覺與文本共享的記憶存儲(chǔ)器用來模擬長范圍視覺文本依賴性并且進(jìn)一步指導(dǎo)視頻描述中的全局視覺目標(biāo)的關(guān)注。借鑒神經(jīng)圖靈機(jī)模型的原理,該模型通過多次讀寫操作與視頻和句子進(jìn)行交互并附加了一個(gè)外部記憶存儲(chǔ)器用來存儲(chǔ)來自視覺與語言模態(tài)的信息。下圖展示了用于視頻描述的多模態(tài)記憶建模的整體框架。
這一框架包含三個(gè)關(guān)鍵模塊:基于卷積網(wǎng)絡(luò)的視頻編碼器,多模態(tài)記憶存儲(chǔ)器,基于 LSTM 的文本解碼器。(1)基于卷積網(wǎng)絡(luò)的視頻編碼器首先利用預(yù)訓(xùn)練的 2D 或者 3D 卷積網(wǎng)絡(luò)模型提取關(guān)鍵幀或段的特征,再利用時(shí)序注意模型選擇與當(dāng)前單詞最相關(guān)的視覺表示,并寫入到記憶存儲(chǔ)器中;(2)基于 LSTM 的文本解碼器利用 LSTM 模型對句子的產(chǎn)生進(jìn)行建模,它預(yù)測當(dāng)前的單詞不僅依賴于之前時(shí)刻的隱藏表示,而且還有從記憶存儲(chǔ)器中讀取的信息,同樣地,它會(huì)向記憶存儲(chǔ)器中寫入更新的表示。(3)多模態(tài)記憶存儲(chǔ)器包含一個(gè)記憶存儲(chǔ)矩陣用來與視頻編碼器和文本解碼器進(jìn)行交互,例如,從 LSTM 解碼器中寫入隱藏表示和讀取記憶內(nèi)容用于解碼器。每一步寫入操作都會(huì)更新多模態(tài)記憶存儲(chǔ)器。最后,我們在兩個(gè)公開的數(shù)據(jù)集(MSVD 和 MSR-VTT)上對提出的模型進(jìn)行了評價(jià)。實(shí)驗(yàn)結(jié)果表明提出的模型在 BLEU 和 METEOR 兩個(gè)指標(biāo)上都超過了許多當(dāng)前最好的結(jié)果。
用于視頻描述的多模態(tài)記憶模型架構(gòu)
論文 11 Fast End-to-End Trainable Guided Filter
Huikai Wu, Shuai Zheng, Junge Zhang, Kaiqi Huang
我們提出了一個(gè)全新的用于聯(lián)合超分 (Joint Upsampling) 的深度學(xué)習(xí)模塊---引導(dǎo)濾波單元 (Guided Filtering Layer)。此模塊將傳統(tǒng)的引導(dǎo)濾波 (Image Guided Filtering) 算法建模為一個(gè)可以反向傳播、與其他模塊聯(lián)合訓(xùn)練的深度學(xué)習(xí)單元,同時(shí)還引入可以自適應(yīng)學(xué)習(xí)的引導(dǎo)圖 (Guidance Map) 來提高靈活性。通過與原有的卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,引導(dǎo)濾波單元可以廣泛地應(yīng)用于稠密預(yù)測任務(wù) (Dense Prediction Task),并獲得更快的速度、更高的精度和更少的內(nèi)存占用量。試驗(yàn)證明,引導(dǎo)濾波單元可以在眾多圖像處理任務(wù)中取得最好的性能并獲得 10 至 100 倍的速度提升。在計(jì)算機(jī)視覺中的眾多稠密匹配任務(wù)中,此模塊同樣可以取得顯著的性能提升。代碼和論文將公布在 htt
ps://github.com/wuhuikai/DeepGuidedFilter。
使用卷積神經(jīng)網(wǎng)絡(luò)和提出的引導(dǎo)濾波單元進(jìn)行圖像到圖像變換的結(jié)果展示
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章