0
本文作者: 奕欣 | 2018-03-05 11:56 | 專題:CVPR 2018 |
雷鋒網(wǎng) AI 科技評論按:本文作者郭瑞娥,首發(fā)于中科院自動化所「智能感知與計算研究中心」微信公眾號,AI 科技評論獲授權轉(zhuǎn)載。
CVPR 是計算機視覺、模式識別和人工智能領域國際頂級會議,2018 年 6 月 18-22 日將在美國鹽湖城召開,屆時 AI 科技評論也會在現(xiàn)場帶來一線報道。不論你是論文錄用作者,還是即將參會的企業(yè)機構,歡迎聯(lián)系 AI 科技評論小編(微信號:aitechreview)報道/合作喲。
智能感知與計算研究中心為中科院自動化所獨立建制的科研部門,致力于研究泛在智能感知理論與技術以及與之相伴的海量感知數(shù)據(jù)的智能分析與處理。智能感知與計算研究中心在今年的 CVPR 2018 上共有 11 篇論文被接收,再次創(chuàng)下歷史新高。
論文 1 Dynamic Feature Learning for Partial Face Recognition
Lingxiao He, Haiqing Li, Qi Zhang, Zhenan Sun
在視頻監(jiān)控,移動手機等場景中,部分人臉識別是一個非常重要的任務。然而,很少有方法研究部分人臉塊識別。我們提出一種動態(tài)特征匹配方法來解決部分人臉識別問題,它結合全卷積網(wǎng)絡和稀疏表達分類。首先,利用全卷積網(wǎng)絡提取 Gallery 和 Probe 的特征圖;其次,利用一個大小滑動窗口把 Gallery 的特征圖分解為與 Probe 特征圖大小相同的子特征圖,進而動態(tài)特征字典;最后,利用稀疏表達分類來匹配 Probe 特征圖與動態(tài)特征字典的相似度。基于動態(tài)特征匹配方法,我們提出了滑動損失來優(yōu)化全卷積網(wǎng)絡。該損失減小類內(nèi)變化,增加了類間變化,從而提高動態(tài)特征匹配的性能。相比于其他部分人臉識別方法,我們提出的動態(tài)匹配方法取得很好的性能。
動態(tài)特征匹配的部分人臉識別框架
論文 2 Deep Spatial Feature Reconstruction for Partial Person Re-identification: Freestyle Approach
Lingxiao He, Jian Liang, Haiqing Li, Zhenan Sun
部分行人再識別是一個非常重要并且具有挑戰(zhàn)性的問題。在無約束環(huán)境中,行人容易被遮擋,有姿態(tài)和視角變化,所以有時候只有部分可見的行人圖像可用于識別。然而,很少有研究提出一種可以識別部分行人的方法。我們提出了一種快速且精確的方法來處理部分行人再識別的問題。提出的方法利用全卷積網(wǎng)絡抽取與輸入圖像尺寸相對應的空域特征圖,這樣輸入的圖像沒有尺寸約束。為了匹配一對不同尺寸大小的行人圖像,我們提出了一種不需要行人對齊的方法:深度空域特征重建。特別地,我們借鑒字典學習中重建誤差來計算不同的空域特征圖的相似度。按照這種匹配方式,我們利用端到端學習方法增大來自于同一個人的圖像對的相似度,反之亦然。由此可見,我們方法不需要對齊,對輸入圖像尺寸沒有限制。我們在 Partial REID,Partial iLIDS 和 Market1501 上取得很好的效果。
深度空域特征重建
論文 3 Adversarially Occluded Samples For Improving Generalization of Person Re-identification Models
Houjing Huang, Dangwei Li, ZhangZhang, Kaiqi Huang
行人再識別(ReID)是跨攝像機行人檢索任務,由于存在光照變化、視角變化、遮擋等復雜因素,目前的模型往往在訓練階段達到了很高的準確率,但是測試階段的性能卻不盡人意。為了提高模型的泛化性能,我們提出了一種特殊的樣本來擴充數(shù)據(jù)集:對抗式遮擋樣本。
整個方法流程如下:(1)按照常用的方法訓練一個 ReID 模型;(2)通過網(wǎng)絡可視化的方法找出模型在識別訓練樣本時所關注的區(qū)域,對這些區(qū)域進行(部分)遮擋就可以產(chǎn)生新的樣本,同時我們保持這些樣本原有的類別標簽;(3)最后,把新的樣本加入到原始數(shù)據(jù)集中,按照之前的方法訓練一個新的模型。這種樣本不僅模擬了現(xiàn)實中的遮擋情況,而且對于模型來說是困難樣本,可以給模型的訓練提供動量,從而跳出局部極小點,減少模型的過擬合。實驗發(fā)現(xiàn),原始的 ReID 模型識別訓練樣本時只關注一些局部的身體區(qū)域,加入新樣本訓練后的模型則可以同時關注到一些之前沒關注的身體區(qū)域,從而提高了模型在測試階段的魯棒性。下圖是該方法的一個具體實現(xiàn),其中 ReID 采用 ID 多分類模型,模型可視化方法采用滑動窗口遮擋的方法。
基于對抗式遮擋的數(shù)據(jù)擴增算法流程圖
論文 4 Learning Semantic Concepts and Order for Image and Sentence Matching
Yan Huang, Qi Wu, Liang Wang
圖像文本匹配的關鍵問題在于如何準確度量圖像文本之間的跨模態(tài)相似度。我們通過數(shù)據(jù)分析發(fā)現(xiàn):圖像文本之所以能夠匹配,主要是由于如下兩點原因:1)圖像文本雖體現(xiàn)不同的模態(tài)特性,但他們包含共同的語義概念;2)語義概念的集合并不是無序的,而是按照一定的語義順序組織起來的。由此,我們提出了一個模型來聯(lián)合對圖像文本所包含的語義概念和語義順序進行學習。該模型使用了一個多標簽區(qū)域化的卷積網(wǎng)絡來對任意圖像預測其所包含的語義概念集合。然后,基于得到的語義概念將其有規(guī)律地排列起來,即學習語義順序。這一過程具體是通過聯(lián)合圖像文本匹配和生成的策略來實現(xiàn)的。此外,還探究了局部語義概念與全局上下文信息之間的互補作用,以及對文本生成的影響。我們在當前主流的圖像文本匹配數(shù)據(jù)庫 Flickr30k 和 MSCOCO 上進行了大量實驗,驗證了我們所提出方法的有效性,并取得了當前最好的跨模態(tài)檢索結果。
聯(lián)合圖像語義概念和語義順序?qū)W習框架
論文 5 A2-RL: Aesthetics Aware Reinforcement Learning for Image Cropping
Debang Li,Huikai Wu,Junge Zhang,Kaiqi Huang
隨著當前圖像數(shù)據(jù)量的不斷增長,對圖像進行自動處理的需求也逐漸變大,而圖像裁剪是圖像處理中的一個十分重要的步驟。圖像自動裁剪技術不僅能夠快速的完成對大多數(shù)圖片的處理,同時還能夠輔助專業(yè)攝像師找到更好的視角來提升圖像的構圖質(zhì)量,其具有十分大的應用價值。由于圖像裁剪的數(shù)據(jù)標注較難獲得,而且一般數(shù)據(jù)量較少,我們提出了一種基于強化學習的弱監(jiān)督(不需要裁剪框標注)圖像自動裁剪算法 A2-RL。之前的弱監(jiān)督自動裁剪算法大部分使用滑動窗口來獲取候選區(qū)域,其需要耗費較大的計算資源和時間,為了解決上述問題,我們將強化學習引入到自動裁剪中,使用一個智能體(agent)在輸入圖像上自適應的調(diào)整候選區(qū)域的位置和大小。該智能體以圖像的全局特征和局部特征作為觀測信息,并且根據(jù)當前和歷史的觀測作為依據(jù)來決定下一步的動作。在訓練過程中,該智能體根據(jù)圖像質(zhì)量的評分計算獎勵,并使用 A3C 算法進行訓練,最終學到較好的候選區(qū)域調(diào)整策略。在實驗過程中,我們的方法在多個標準的裁剪數(shù)據(jù)集上進行了測試,其不僅在速度上取得了較大的提升,同時在精度上也有明顯的提高。我們方法的整體框架圖為:
基于強化學習的圖像自動裁剪模型架構
論文 6 Discriminative Learning of Latent Features for Zero-Shot Recognition
Yan Li, Junge Zhang, Kaiqi Huang, Jianguo Zhang
零樣本學習(Zero-Shot Learning)通過在視覺和語義兩個空間之間學習一個共同的嵌入式空間,能夠?qū)崿F(xiàn)對測試集中的未知類別進行測試。以往的零樣本工作,主要集中在嵌入式空間學習過程中,忽略了視覺特征、語義特征在零樣本學習中的作用。我們針對傳統(tǒng)的零樣本學習過程中,特征表達區(qū)分度不足的問題,從視覺空間和語義空間兩個方面提出了改進方法,在兩個空間同時學習到區(qū)分度更強的特征表達,進而極大地提升了零樣本學習的識別性能。具體來說,1)在視覺空間,我們提出了 zoom net,從原始的圖片中,自動挖掘具有區(qū)分度的圖片區(qū)域。2)在語義空間,除了用戶定義的屬性之外,我們利用 triplet loss,自動地學習具有區(qū)分度的「隱式屬性」。3)最終,圖片空間中的區(qū)分性區(qū)域挖掘,以及語義空間中的區(qū)分性隱屬性學習兩個模塊在一個端到端框架中聯(lián)合學習,共同促進。
用于零樣本學習的隱式判別性特征挖掘框架
論文 7 Pose-Guided Photorealistic Face Rotation
Yibo Hu, Xiang Wu, Bin Yu, Ran He, Zhenan Sun
隨著深度學習的發(fā)展,人臉識別算法的性能得到了廣泛提升,然而大姿態(tài)人臉識別問題依然亟待解決。人臉旋轉(zhuǎn)為人臉識別中的大姿態(tài)問題提供了一種有效的解決方式。我們提出了一種任意角度的人臉旋轉(zhuǎn)算法 Couple-Agent Pose-Guided Generative Adversarial Network (CAPG-GAN)。CAPG-GAN 通過人臉關鍵點編碼姿態(tài)信息指導對抗生成網(wǎng)絡進行人臉生成任務。同時使用身份保持損失函數(shù)和全變分正則項約束人臉的身份信息和局部紋理信息。最終我們的算法在 Multil-PIE 和 LFW 上均取得了不錯的識別率,同時如圖所示,CAPG-GAN 可以根據(jù)人臉關鍵編碼信息生成任意角度人臉。
不同姿態(tài)人臉圖像生成結果
論文 8 Multistage Adversarial Losses for Pose-Based Human Image Synthesis
Chenyang Si, Wei Wang, Liang Wang, Tieniu Tan
單張圖片的多視角圖像合成在計算機視覺中是一個非常重要并且具有挑戰(zhàn)性的問題,而且對于人的多視角圖像合成在對人體行為理解中具有很重要的應用價值。利用人的多視角合成可以有效地解決在計算機視覺中存在的跨視角問題,例如跨視角行為識別、跨視角行人再識別等等。由于人姿態(tài)的多變性,人的多視角圖像合成比剛性物體(如車、椅子等等)的多視角合成更具有挑戰(zhàn)性。我們提出了多階段對抗損失函數(shù)在基于人體關鍵點的多視角人體圖像合成算法,該算法可以生成高質(zhì)量多視角人體圖像,而且可以保持合成人的姿態(tài)在三維空間中保持一致。為了可以生成高質(zhì)量圖像,我們提出從低維度人體結構到圖像前景,最后合成背景的多階段圖像生成模型,為了解決均方誤差損失函數(shù)引起的圖像模糊的問題,我們在多階段使用對抗損失函數(shù)。我們的算法如圖所示:
基于pose的多階段對抗學習的人體圖像合成網(wǎng)絡框架
論文 9 Mask-guided Contrastive Attention Model for Person Re-Identification
Chunfeng Song, Yan Huang, Wanli Ouyang, and Liang Wang
行人再識別問題是一個重要且具有挑戰(zhàn)性的經(jīng)典計算機視覺任務。通常攝像頭采集到的行人圖像中含有雜亂的背景,并且圖像中的行人通常有多種多樣的姿態(tài)和視角,這些多樣性造成的困難在之前的研究中都尚未得到很好的解決。為了解決上述問題,我們引進了二值化的行人分割輪廓圖作為額外輸入,并與彩色圖像合成為四通道的新輸入,然后設計了一種基于分割輪廓圖的對比注意模型來學習背景無關的行人特征。在此基礎上,我們提出了一種區(qū)域級別的三元組損失函數(shù),分別來約束來自全圖區(qū)域、行人身體區(qū)域、背景區(qū)域的特征,提出的損失函數(shù)可以讓來自全圖區(qū)域和行人身體區(qū)域的特征在特征空間靠近,并遠離背景區(qū)域,最終達到去除背景的作用。所提出的方法在三個行人再識別數(shù)據(jù)集上驗證了有效性,取得了當前最好的性能。
二值化分割輪廓與區(qū)域級別三元組約束示意圖
論文 10 M^3: Multimodal Memory Modelling for Video Captioning
Junbo Wang, Wei Wang, Yan Huang, Liang Wang, Tieniu Tan
視頻描述對于理解視覺與語言是十分重要的一環(huán),同時也是很有挑戰(zhàn)性的任務。它有很多的實際應用價值,包括人機交互、視頻檢索、為盲人轉(zhuǎn)述視頻等。針對這一問題,我們提出了一個多模態(tài)記憶模型用于視頻描述,這一模型建立了視覺與文本共享的記憶存儲器用來模擬長范圍視覺文本依賴性并且進一步指導視頻描述中的全局視覺目標的關注。借鑒神經(jīng)圖靈機模型的原理,該模型通過多次讀寫操作與視頻和句子進行交互并附加了一個外部記憶存儲器用來存儲來自視覺與語言模態(tài)的信息。下圖展示了用于視頻描述的多模態(tài)記憶建模的整體框架。
這一框架包含三個關鍵模塊:基于卷積網(wǎng)絡的視頻編碼器,多模態(tài)記憶存儲器,基于 LSTM 的文本解碼器。(1)基于卷積網(wǎng)絡的視頻編碼器首先利用預訓練的 2D 或者 3D 卷積網(wǎng)絡模型提取關鍵幀或段的特征,再利用時序注意模型選擇與當前單詞最相關的視覺表示,并寫入到記憶存儲器中;(2)基于 LSTM 的文本解碼器利用 LSTM 模型對句子的產(chǎn)生進行建模,它預測當前的單詞不僅依賴于之前時刻的隱藏表示,而且還有從記憶存儲器中讀取的信息,同樣地,它會向記憶存儲器中寫入更新的表示。(3)多模態(tài)記憶存儲器包含一個記憶存儲矩陣用來與視頻編碼器和文本解碼器進行交互,例如,從 LSTM 解碼器中寫入隱藏表示和讀取記憶內(nèi)容用于解碼器。每一步寫入操作都會更新多模態(tài)記憶存儲器。最后,我們在兩個公開的數(shù)據(jù)集(MSVD 和 MSR-VTT)上對提出的模型進行了評價。實驗結果表明提出的模型在 BLEU 和 METEOR 兩個指標上都超過了許多當前最好的結果。
用于視頻描述的多模態(tài)記憶模型架構
論文 11 Fast End-to-End Trainable Guided Filter
Huikai Wu, Shuai Zheng, Junge Zhang, Kaiqi Huang
我們提出了一個全新的用于聯(lián)合超分 (Joint Upsampling) 的深度學習模塊---引導濾波單元 (Guided Filtering Layer)。此模塊將傳統(tǒng)的引導濾波 (Image Guided Filtering) 算法建模為一個可以反向傳播、與其他模塊聯(lián)合訓練的深度學習單元,同時還引入可以自適應學習的引導圖 (Guidance Map) 來提高靈活性。通過與原有的卷積神經(jīng)網(wǎng)絡結合,引導濾波單元可以廣泛地應用于稠密預測任務 (Dense Prediction Task),并獲得更快的速度、更高的精度和更少的內(nèi)存占用量。試驗證明,引導濾波單元可以在眾多圖像處理任務中取得最好的性能并獲得 10 至 100 倍的速度提升。在計算機視覺中的眾多稠密匹配任務中,此模塊同樣可以取得顯著的性能提升。代碼和論文將公布在 htt
ps://github.com/wuhuikai/DeepGuidedFilter。
使用卷積神經(jīng)網(wǎng)絡和提出的引導濾波單元進行圖像到圖像變換的結果展示
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。