0
本文作者: AI研習(xí)社 | 2019-06-25 17:45 | 專題:CVPR 2019 |
本文轉(zhuǎn)載至公眾號:騰訊技術(shù)工程
已獲得授權(quán)
計算機視覺頂級會議 CVPR 2019 將于 6 月 15 日– 6 月 21 日在加利福尼亞州長灘舉辦,今年騰訊公司共有 58 篇論文入選,其中騰訊 AI Lab 33 篇(含 8 篇oral),騰訊優(yōu)圖實驗室 25 篇。騰訊 AI Lab 入選論文涉及視頻理解、人臉識別、對抗攻擊、視覺-語言描述、模型壓縮和多任務(wù)學(xué)習(xí)等幾大重點研究方向,下面將分組介紹論文。往年參會入選論文可見公眾號歷史文章。
注:本文分組方式并不嚴(yán)格,部分論文同時分屬多個主題。
對抗攻擊
Against Attack
深度神經(jīng)網(wǎng)絡(luò)在很多應(yīng)用領(lǐng)域都取得了驚人的效果,比如圖像分類和人臉識別。但與此同時,深度神經(jīng)網(wǎng)絡(luò)也是十分脆弱的。最典型的例子就是對抗攻擊,具體而言,在輸入樣本(比如圖像)上加入人類難以察覺的微小噪聲,可以讓深度神經(jīng)網(wǎng)絡(luò)的預(yù)測出現(xiàn)嚴(yán)重偏差。對抗攻擊的研究,對于加強深度神經(jīng)網(wǎng)絡(luò)的安全性以及可解釋性,具有很重要的意義。以往大多數(shù)研究工作集中在白盒對抗攻擊和非結(jié)構(gòu)化輸出模型的攻擊,而我們CVPR 2019的入選論文重點研究了更具挑戰(zhàn)的黑盒對抗攻擊,和對結(jié)構(gòu)化輸出模型的攻擊。
1.針對人臉識別的基于決策的高效黑盒對抗攻擊方法
Efficient Decision-based Black-box Adversarial Attacks on Face Recognition
本文由騰訊AI Lab主導(dǎo),與清華大學(xué)合作完成,是在黑盒對抗攻擊領(lǐng)域的一項重要探索。近年來,基于深度卷積神經(jīng)網(wǎng)絡(luò)的人臉識別取得了顯著的成就。但是,深度卷積神經(jīng)網(wǎng)絡(luò)很容易受到對抗樣本的攻擊。因此,人臉識別系統(tǒng)的安全性也可能受到很大的威脅。
為了驗證當(dāng)前最先進人臉識別模型的安全性能,我們研究了基于決策的黑盒攻擊,即無法獲知人臉識別模型的參數(shù)或結(jié)構(gòu),只能通過詢問來獲取模型的結(jié)果。這種設(shè)定完全符合現(xiàn)實情況下的攻擊情形。我們提出了一種基于進化算法的高效攻擊方法,其充分利用了搜索空間的局部幾何特性,并通過對搜索空間進行降維來提高攻擊效率。實驗表明我們的攻擊方法比已有的黑盒攻擊方法更高效。同時,我們還對第三方人臉識別系統(tǒng)進行了攻擊驗證,也充分展示了我們方法的優(yōu)越性能。
2.基于帶有隱變量的結(jié)構(gòu)化輸出學(xué)習(xí)的圖像描述精準(zhǔn)對抗攻擊
Exact Adversarial Attack to Image Captioning via Structured Output Learning with Latent Variables
本文由騰訊AI Lab 主導(dǎo),與電子科技大學(xué)合作完成,探索了對圖像描述模型實現(xiàn)精準(zhǔn)對抗攻擊的方法。對抗攻擊對深度學(xué)習(xí)模型存在嚴(yán)重威脅,揭示了深度神經(jīng)網(wǎng)絡(luò)的脆弱性。研究對抗攻擊有助于理解深度學(xué)習(xí)模型的內(nèi)部機制,也能幫助提升模型的安全性,具有非常高的研究和實用價值。已有對抗攻擊方法主要以帶有獨立輸出的模型為攻擊對象,但很多問題的輸出結(jié)果往往是結(jié)構(gòu)化的,比如在基于 CNN+RNN 的圖像描述問題中,輸出是一個序列。
我們以基于 CNN+RNN 的圖像描述模型為具體對象,在業(yè)內(nèi)第一次定義了“精準(zhǔn)結(jié)構(gòu)化攻擊”,即通過優(yōu)化對抗樣本,迫使模型在特定位置輸出特定的詞。由于輸出序列內(nèi)部的關(guān)聯(lián)性,現(xiàn)有的針對獨立輸出的攻擊方法無法在序列輸出問題中實現(xiàn)精準(zhǔn)攻擊。
我們的具體做法是將精準(zhǔn)結(jié)構(gòu)化攻擊問題建模成帶有隱變量的結(jié)構(gòu)化輸出學(xué)習(xí)模型;此外我們還展示了兩種優(yōu)化算法。我們對當(dāng)前最流行的圖像描述模型進行了精準(zhǔn)攻擊實驗,結(jié)果展現(xiàn)了非常高的攻擊成功率和非常低的對抗噪聲。
另外,我們還將精準(zhǔn)結(jié)構(gòu)化攻擊算法作為探測結(jié)構(gòu)化輸出空間的工具,揭示出當(dāng)前圖像描述模型還沒有很好地掌握人類的語法規(guī)則,比如被動語態(tài)和定語從句。這為進一步縮小圖像描述模型與人類描述的差距指明了方向。同時,本文所提出的模型和算法與具體圖像描述模型無關(guān),可輕松地用于攻擊其它結(jié)構(gòu)化模型。
視頻深度理解
Deep Understanding of Videos
機器要理解世界,就必需要處理和分析周圍動態(tài)環(huán)境能力。視頻的分析與處理在移動機器人、自動駕駛、監(jiān)控視頻分析等許多應(yīng)用中都是至關(guān)重要的技術(shù),甚至關(guān)乎使用者的生命安全。同時,近些年基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法已經(jīng)在靜態(tài)圖像分析方面取得了重大的進展和突破,所以計算機視覺領(lǐng)域的研究重心也正向動態(tài)的視頻領(lǐng)域傾斜。
與靜態(tài)的圖像處理相比,視頻分析面臨著一些特有的難題,比如識別、跟蹤與重新判定視頻中目標(biāo)的身份,預(yù)測目標(biāo)的運動軌跡,多目標(biāo)跟蹤,分析視頻內(nèi)容并提取相關(guān)片段等。
騰訊 AI Lab 入選的 33 篇論文中有 9 篇與視頻直接相關(guān),涉及到光流學(xué)習(xí)、視頻對象分割、目標(biāo)跟蹤和視頻定位等多個研究方向
1.一種自監(jiān)督的光流學(xué)習(xí)方法
SelfFLow: Self-Supervised Learning of Optical Flow
本文由騰訊AI Lab 主導(dǎo),與香港中文大學(xué)合作完成,是CVPR oral 展示論文之一。光流是計算機視覺的一個基本任務(wù),它描述了運動的信息,也有很多應(yīng)用場景,比如物體跟蹤、視頻分析、三維重建、自動駕駛等。我們探索了使用卷積神經(jīng)網(wǎng)絡(luò)估計光流的一個關(guān)鍵挑戰(zhàn):預(yù)測被遮擋像素的光流。
首先,我們提出了一種從沒有標(biāo)注的數(shù)據(jù)中學(xué)習(xí)光流的自監(jiān)督框架。這個方法會人為創(chuàng)造一些遮擋,然后利用已經(jīng)學(xué)習(xí)到的比較準(zhǔn)確的沒有被遮擋像素的光流去指導(dǎo)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)被遮擋像素的光流。
其次,為了更好地學(xué)習(xí)光流,我們設(shè)計了一個可以利用多幀圖像時序連續(xù)性的網(wǎng)絡(luò)結(jié)構(gòu)。基于這兩個原則,我們的方法在MPI Sintel、KITTI 2012和KITTI 2015等數(shù)據(jù)集上取得了最好的無監(jiān)督效果。更重要的是,我們的無監(jiān)督方法得到的模型能為有監(jiān)督的微調(diào)提供一個很好的初始化。經(jīng)過有監(jiān)督微調(diào),我們的模型在以上三個數(shù)據(jù)集上取得了目前最優(yōu)的性能。在寫這篇文章的時候,我們的模型在Sintel數(shù)據(jù)集上取得EPE=4.26 的成績,超過所有已經(jīng)提交的方法。
框架概況:左側(cè)是每一層級的網(wǎng)絡(luò)架構(gòu),右側(cè)是我們的自監(jiān)督訓(xùn)練策略
2.MHP-VOS: 基于多假設(shè)傳播的視頻對象分割
MHP-VOS: Multiple Hypotheses Propagation for Video Object Segmentation
本文由騰訊AI Lab與華中科技大學(xué)合作完成,是CVPR oral 展示論文之一。本文首先闡述了半監(jiān)督視頻對象分割(VOS)問題,其中感興趣的對象的掩碼在輸入視頻的第一幀中給出。要處理對象被遮擋或丟失的高難度案例,以前的工作依賴于貪婪的數(shù)據(jù)關(guān)聯(lián)策略為每幀單獨制定決策。在本文中,我們提出了一種對于每個幀中的目標(biāo)對象推遲決策的新方法,直到全局地考慮了整個視頻后才進行決策。
我們的方法與多假設(shè)跟蹤(MHT)方法一脈相承,但也進行了幾項關(guān)鍵的修改以適用于VOS問題。我們使用的是掩模假設(shè)而不是方框假設(shè),這能讓我們設(shè)計出更專門定制的VOS算法。具體來說,從第一幀中的初始對象掩碼開始,通過將前一幀的掩模傳播到后一幀門控區(qū)域里檢測到的方框建議來生成多個假設(shè)。該門控區(qū)域是通過一種門控方案來確定的,該方案考慮了更全面的運動模型,而不是傳統(tǒng)MHT中的簡單卡爾曼濾波模型。我們設(shè)計了一個全新的掩模傳播分?jǐn)?shù),而不是MTH中的外觀相似度分?jǐn)?shù),因為外觀相似度分?jǐn)?shù)在物體變形較大時不夠魯棒。該掩模傳播分?jǐn)?shù)與運動分?jǐn)?shù)一起,共同確定了多個假設(shè)之間的親近關(guān)系,這個親近關(guān)系可以用于后續(xù)的假設(shè)樹的剪枝算法。
此外,我們還提出了一種新穎的掩模合并策略,用以處理多個被跟蹤物體之間的掩模沖突。實驗表明,該方法能有效處理具有挑戰(zhàn)性的數(shù)據(jù)集,特別是在對象丟失的情況下。
3.PA3D:基于3D 姿態(tài)-動作的視頻識別
PA3D: Pose-Action 3D Machine for Video Recognition
本文由騰訊AI Lab與中國科學(xué)院深圳先進技術(shù)研究院合作完成。目前大多數(shù)動作識別方法都采用3D CNN提取特征,但這些方法都是基于RGB和光流,并未完全利用動作的動態(tài)變化規(guī)律。本文提出的精確Pose-Action 3D Machine方法能夠在統(tǒng)一的 3D 框架下有效地編碼多種姿態(tài)以及學(xué)習(xí)時空域姿態(tài)表征,進而實現(xiàn)更好的動作識別。我們在三個公開數(shù)據(jù)集上進行了測試,結(jié)果表明本文提出的方法優(yōu)于已有的基于姿態(tài)的動作識別方法。
4.具有目標(biāo)感知能力的追蹤框架
Target-Aware Deep Tracking
本文由哈爾濱工業(yè)大學(xué)、騰訊AI Lab、上海交通大學(xué)與加州大學(xué)默塞德分校合作完成,提出了一種具有目標(biāo)感知能力的追蹤框架。當(dāng)前基于深度學(xué)習(xí)的追蹤方法常使用的深度特征提取都是在分類任務(wù)上預(yù)訓(xùn)練好的。盡管這樣的做法在多個視頻領(lǐng)域取得了很大的成功,但是在追蹤領(lǐng)域中,其有效性還未得到深入挖掘。
關(guān)鍵原因是在追蹤任務(wù)中,目標(biāo)物體類別和形式是未知的和不確定的,只有在追蹤開始時才確定。直接使用在類別固定的分類任務(wù)上訓(xùn)練的深度特征,難以對追蹤中的目標(biāo)進行有效地建模。為此,我們提出了一個基于梯度值的機制去學(xué)習(xí)能夠感知目標(biāo)的特征。鑒于此,我們構(gòu)建了一個回歸損失和一個排序損失來分別指導(dǎo)模型,生成能夠有效表征目標(biāo)的特征和對于目標(biāo)大小變化敏感的特征。
具體來講,我們首先利用反向傳播算法計算每個損失對于各個濾波器的梯度,然后根據(jù)梯度值的大小來確定每個濾波器的重要性,以此來生成適用于追蹤的特征。我們將具有目標(biāo)感知性的特征用于孿生網(wǎng)絡(luò)框架來實現(xiàn)追蹤。大量的實驗結(jié)果表明,相較于當(dāng)前的主流方法,我們提出的方法不論是在準(zhǔn)確率方面還是在運行速度方面都能取得不錯的效果。
5.深度無監(jiān)督式目標(biāo)跟蹤
Unsupervised Deep Tracking
本文由騰訊AI Lab主導(dǎo),與中科大和上海交通大學(xué)合作完成,提出了一種基于無監(jiān)督學(xué)習(xí)的目標(biāo)跟蹤方法。不同于之前的利用大量標(biāo)注數(shù)據(jù)的監(jiān)督學(xué)習(xí)方法,我們是利用未標(biāo)注的視頻數(shù)據(jù)來訓(xùn)練深度卷積網(wǎng)絡(luò)。我們的啟示是一個魯棒的跟蹤 器應(yīng)當(dāng)在前向和后向的跟蹤過程中均有效,即跟蹤 器能夠前向跟蹤目標(biāo)物體并逐幀回溯到第一幀的初始狀態(tài)。我們利用孿生網(wǎng)絡(luò)實現(xiàn)了新提出的方法,該網(wǎng)絡(luò)完全由沒有標(biāo)注的視頻數(shù)據(jù)訓(xùn)練而成。
與此同時,我們提出了一個利用多軌跡優(yōu)化和損失敏感的衡量函數(shù)來進一步提升跟蹤性能。單純利用無監(jiān)督學(xué)習(xí)方法,我們的跟蹤 器就能達(dá)到需要精確和完整訓(xùn)練數(shù)據(jù)的全監(jiān)督學(xué)習(xí)的基本水平。更值得關(guān)注的是,我們提出的無監(jiān)督學(xué)習(xí)框架能夠更深入地利用未標(biāo)注或者部分標(biāo)注的數(shù)據(jù)來進一步提升跟蹤性能。
6.基于WarpLSTM的時空視頻再定位
Spatio-Temporal Video Re-localization by Warp LSTM
本文由騰訊AI Lab主導(dǎo),與羅切斯特大學(xué)合作完成。隨著網(wǎng)絡(luò)上視頻井噴式的增長,高效地找到用戶想要的視頻的需求也隨之增長。現(xiàn)有的基于關(guān)鍵詞的檢索方法只能獲知某些視頻內(nèi)容存在與否,并不能獲知視頻內(nèi)容出現(xiàn)的時間和位置。本文提出了定位視頻內(nèi)容出現(xiàn)的時間和位置的時空視頻再定位任務(wù)。給出一個查詢視頻和一個備選視頻,時空視頻再定位任務(wù)的目標(biāo)是在備選視頻當(dāng)中找到一個和查詢視頻相關(guān)的時空片段。
為了準(zhǔn)確地定位,我們提出了一個新的WarpLSTM網(wǎng)絡(luò),這種網(wǎng)絡(luò)的優(yōu)勢是它可以提取視頻當(dāng)中的長時間的時空信息。為了解決時空視頻再定位問題遇到的另外一個困難,即缺少標(biāo)注數(shù)據(jù),我們重新組織了AVA數(shù)據(jù)集當(dāng)中的視頻,得到了一個用于時空再定位研究的新數(shù)據(jù)集。實驗表明我們提出的模型能取得優(yōu)于基線方法的定位結(jié)果。
7.不是所有幀都相同:基于上下文相似度和視覺聚類損失的弱監(jiān)督視頻定位
Not All Frames Are Equal: Weakly Supervised Video Grounding with Contextual Similarity and Visual Clustering Losses
本文由騰訊AI Lab與羅徹斯特大學(xué)合作完成。我們研究的問題是僅提供視頻層面的句子描述的弱監(jiān)督視頻定位,即在沒有物體位置標(biāo)注的情形下將語言的關(guān)鍵詞定位到視頻中的空間中。這是一個有挑戰(zhàn)性的任務(wù);首先,視頻中有許多幀,會出現(xiàn)幀和語言描述不一定匹配的不一致問題;其次,盡管網(wǎng)絡(luò)中有大量的視頻,但是標(biāo)注物體位置具有高昂的成本。并且。之前的基于多示例學(xué)習(xí)(MIL)的圖像定位方法難以有效用于視頻定位。最近的工作試圖將視頻層級的MIL分解為幀級別的MIL,通過將句子與幀之間的相似度作為權(quán)重作用到每一幀上,但是這樣做并不魯棒并且無法利用豐富的時序信息。
在本文中,我們利用假陽性幀包(frame-bag)限制來擴展幀級別的MIL,并且建模了視頻時序特征一致性。特別地,我們設(shè)計了形義和視覺特征的上下文相似度,從而克服物體在幀與幀之間的稀疏問題。更進一步,我們通過強化視覺空間中相似的特征來利用時序上的連貫性。我們在YouCookII和RoboWatch數(shù)據(jù)集上全面評估了這個模型,結(jié)果表明我們的方法較之間方法能夠大幅度提升性能。
8.基于多粒度分析的時序動作提名生成器
Multi-granularity Generator for Temporal Action Proposal
本文由騰訊AI Lab主導(dǎo),與東南大學(xué)、哥倫比亞大學(xué)合作完成。時序動作提名是一項重要任務(wù),其目的在于定位未修剪視頻中含有人類動作的視頻片段。我們提出了使用多粒度生成器來完成時序動作提名,其能從不同的粒度分析視頻并嵌入位置信息。
首先,我們使用雙線性匹配模塊來探索視頻序列中豐富的局部信息,隨后我們提出的片段動作生產(chǎn)器和幀動作生成器兩個模塊能從不同的粒度分析視頻。片段動作生產(chǎn)器以粗粒度的方式,通過特征金字塔的形式感知整個視頻并產(chǎn)生長度各異的動作提名;幀動作生成器則對每一個視頻幀采取細(xì)粒度的分析。雖然多粒度生成器涉及多個模塊,在訓(xùn)練過程中卻能以端到端的形式進行?;趲瑒幼魃善骷?xì)粒度的分析,片段動作生產(chǎn)器產(chǎn)生的動作提名可以被進一步位置微調(diào),從而實現(xiàn)更精準(zhǔn)的定位。
因此,相比于目前最優(yōu)的模型,多粒度生成器在兩個公開的數(shù)據(jù)集ActivityNet1.3和Thumos14上都獲得了更好的效果。另一方面,在多粒度生成器產(chǎn)生的動作提名基礎(chǔ)上采用現(xiàn)有的分類器進行分類,相比于目前性能較優(yōu)的視頻檢測方法,多粒度生成器都獲得了明顯的提升。
9.基于預(yù)測運動和外觀統(tǒng)計量的自監(jiān)督視頻時空表征學(xué)習(xí)
Self-supervised Spatio-temporal Representation Learning for Videos by Predicting Motion and Appearance Statistics
本文由騰訊AI Lab與香港中文大學(xué)、華南理工大學(xué)合作完成。本文首先闡述了在無人工標(biāo)注標(biāo)簽時的視頻表征學(xué)習(xí)問題。雖然之前也有工作通過設(shè)計新穎的自監(jiān)督任務(wù)來進行視頻的表征學(xué)習(xí),但學(xué)習(xí)的表征一般都基于單幀圖像,而無法用于需要多幀時空特征的主流視頻理解任務(wù)。我們在本文中提出了一種新穎的自監(jiān)督方法,可學(xué)習(xí)視頻的多幀時空表征。
受到視頻分類任務(wù)中的two-stream類方法的啟發(fā),我們提出通過回歸時空兩個維度的運動和外觀的統(tǒng)計量來進行視覺特征學(xué)習(xí)。
具體來說,我們在多個視頻幀的時空兩個維度上提取一些統(tǒng)計概念(例如快速運動區(qū)域及其相應(yīng)的主要運動方向、時空上的色彩多樣性、主導(dǎo)顏色等)。不同于之前的一些預(yù)測稠密像素值的方法,我們提出的方法與人類固有的視覺習(xí)慣一致,并且易于學(xué)習(xí)。我們用C3D作為基干網(wǎng)絡(luò)進行了大量實驗,結(jié)果表明該方法可以顯著提高C3D用于視頻分類等任務(wù)時的性能。
人臉
Human Face
人臉分析與識別已經(jīng)在一些娛樂、安檢和身份校驗等應(yīng)用中得到了實際應(yīng)用,但該領(lǐng)域仍存在一些有待解決的問題,比如如何適應(yīng)視角變化、如何在不同的環(huán)境(比如弱光環(huán)境)中有效工作、如何鑒別被識別的臉是否真實、如何判別相似的人臉(比如臉部一樣的雙胞胎)、如何識別特殊的人臉(比如受傷或有偽裝的人臉)以及分析人臉隨時間的變化。另外,人臉的重建也是很重要的研究方向,在游戲和虛擬助手等方面有很有價值的應(yīng)用前景。
騰訊 AI Lab 今年有多篇與人臉相關(guān)的研究論文入選 CVPR,涉及到跨年齡人臉識別、人臉活體檢測和、多視角 3D 人臉重建、人臉面部動作單位強度估計、人臉識別系統(tǒng)的對抗攻擊研究等方向。其中,在人臉活體檢測方面的研究與我們支持的云智慧眼業(yè)務(wù)密切相關(guān),這是我們在公司內(nèi)首推而且在 H5 場景下屬于業(yè)界首創(chuàng)的靜默活體檢測技術(shù)(靜默活體檢測指的是不需要用戶交互配合即可完成人臉活體檢測,非常易用。
1.人臉活體檢測:模型很重要,數(shù)據(jù)也是
Face Anti-Spoofing: Model Matters, So Does Data
本文由騰訊AI Lab主導(dǎo),與上海交通大學(xué)合作完成,為人臉活體檢測提出了一種新模型和新的數(shù)據(jù)收集方法?;铙w檢測在全棧的人臉應(yīng)用中扮演著重要的必不可少的角色,它的目的是為了檢測攝像頭前的人臉是真人樣本還是偽造的攻擊樣本(比如翻拍的人臉照片或者預(yù)先錄制的人臉視頻等)。
以往方法的模型通?;谝恍┎荒芎芎媚M真實場景的數(shù)據(jù)庫,這會影響到模型的泛化性能。本文提出了一種數(shù)據(jù)收集的解決方案,可以很好地模擬真實的活體攻擊,從而能以很低的成本快速獲取大量訓(xùn)練數(shù)據(jù)。
我們還開發(fā)了一個利用時空信息的活體檢測模型,將當(dāng)前公開數(shù)據(jù)庫上面的性能推進了一大步。我們的模型可以自動關(guān)注有助于區(qū)分活體和非活體的局部區(qū)域,這也能幫助我們分析網(wǎng)絡(luò)的行為。實驗結(jié)果也表明我們的模型可以關(guān)注到摩爾紋、屏幕邊緣等一些區(qū)域,進而實現(xiàn)更好的活體檢測。
2.針對跨年齡人臉識別的去相關(guān)對抗學(xué)習(xí)
Decorrelated Adversarial Learning for Age-Invariant Face Recognition
本文由騰訊AI Lab獨立完成??缒挲g人臉識別問題受到了非常廣泛的研究關(guān)注。然而,識別年齡間隔較大的人臉圖像仍然非常具有挑戰(zhàn)性,這主要是因為年齡變化會引起人臉圖像呈現(xiàn)出較大的差異。
為了減少年齡變化所造成的差異,本文提出一個全新的算法,目的在于去除混合了身份和年齡信息的人臉特征中的年齡成分。具體而言,我們將混合的人臉特征分解成為兩個不相關(guān)的組成成分:身份成分和年齡成分,其中的身份成分包含了對人臉識別有用的信息。
為了實現(xiàn)這個想法,我們提出去相關(guān)的對抗學(xué)習(xí)算法,其中引入了一個典型映射模塊,用于得到生成的成分特征之間的最大相關(guān)性,與此同時主干網(wǎng)絡(luò)和特征分解模塊則用于生成特征以最小化這個相關(guān)性。這樣,主干網(wǎng)絡(luò)能夠?qū)W習(xí)得到身份特征和年齡特征并使得其相關(guān)性顯著降低。與此同時,身份特征和年齡特征通過身份保持和年齡保持的監(jiān)督信號進行學(xué)習(xí),以確保它們的信息正確。我們在公開的跨年齡人臉識別數(shù)據(jù)集(FG-NET、MORPH Album 2 和 CACD-VS)進行了實驗,結(jié)果表明了這個方法的有效性。
3.MVF-Net: 多視角3D人臉可變形模型的參數(shù)回歸
MVF-Net: Multi-View 3D Face Morphable Model Regression
本文由騰訊AI Lab主導(dǎo),與香港中文大學(xué)合作完成。本文闡述的問題是用多視角人臉圖片作為輸入重建3D人臉模型。雖然最新的基于3D人臉可變形模型(3DMM)的方法取得了不少進步,但大部分工作仍局限于單張照片的輸入。
單張照片3D人臉重建有一個內(nèi)在的缺點:缺乏3D約束會導(dǎo)致無法解決的幾何結(jié)構(gòu)混淆。我們在本文中探索了給定多視角人臉照片輸入的設(shè)定下進行基于3DMM的3D人臉重建問題。我們提出了一種全新的使用端到端卷積神經(jīng)網(wǎng)絡(luò)來回歸3DMM參數(shù)的方法。在這個方法中,通過使用一種新型的自監(jiān)督視角對齊損失函數(shù),模型能建立不同視角之間的稠密像素對應(yīng)關(guān)系,從而引入多視角幾何約束。
該新型損失函數(shù)使用可導(dǎo)的光流估計模塊將投影合成的目標(biāo)視角圖像與原始輸入圖像之間的對齊誤差反向傳播回3DMM參數(shù)的回歸中。這樣就能在最小化損失函數(shù)的過程中恢復(fù)對齊誤差較小的3D形狀。實驗驗證了多視角照片輸入相對于單張照片輸入的優(yōu)勢。
4.基于聯(lián)合表征和估計器學(xué)習(xí)的人臉面部動作單元強度估計
Joint Representation and Estimator Learning for Facial Action Unit Intensity Estimation
本文由騰訊AI Lab主導(dǎo),與中科院自動化研究所和美國倫斯勒理工學(xué)院合作完成,提出了一種用于人臉面部動作單元強度估計的新方法。人臉面部動作單元描述的是人臉上局部的肌肉運動,對其強度的估計面臨著兩個難題:其表觀變化難以捕捉;含有面部動作單元標(biāo)注的數(shù)據(jù)集較少。
我們針對這些難題提出了一個樣本特征和回歸模型聯(lián)合學(xué)習(xí)框架。該框架可以靈活地嵌入各種形式的先驗知識,且僅需少量標(biāo)注數(shù)據(jù)集即可進行模型學(xué)習(xí)。實驗結(jié)果表明,該方法在標(biāo)注數(shù)據(jù)較少時能得到比現(xiàn)有算法更好的結(jié)果。深度學(xué)習(xí)模型可視為聯(lián)合學(xué)習(xí)特征和回歸的模型,但訓(xùn)練數(shù)據(jù)不足時會發(fā)生嚴(yán)重的過擬合;而我們提出的方法即使僅有 2% 的標(biāo)注數(shù)據(jù),也依然可以達(dá)到較好的效果。
視覺-語言技術(shù)
Visual - Language Technology
視覺和語言是人類了解世界以及與世界交流的兩種主要方式,深度學(xué)習(xí)技術(shù)的發(fā)展為這兩個原本相對獨立的學(xué)科搭建了橋梁,使這個交叉領(lǐng)域成為了計算機視覺和自然語言處理的重要研究方向。這個研究方向的基本問題是用語言描述圖像或視頻中的內(nèi)容,在此基礎(chǔ)上,我們可以查詢圖像或視頻中與語言描述相關(guān)的部分,甚至根據(jù)語言描述的內(nèi)容生成對應(yīng)的視覺內(nèi)容。視覺-語言技術(shù)在視頻網(wǎng)站、視頻處理、游戲以及與人溝通的機器人等許多領(lǐng)域都會有重要的應(yīng)用。
騰訊 AI Lab 有多篇 CVPR 入選論文探索了這一技術(shù)領(lǐng)域的新方法,除了下面的兩篇,上文“視頻”部分也介紹了基于語言查詢定位視頻片段的研究。
1.基于詞性的快速準(zhǔn)確且多樣化的圖像生成自然語言描述方法
Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech
本文由美國伊利諾伊大學(xué)香檳分校(UIUC)與騰訊AI Lab 合作完成,是CVPR oral 展示論文之一,提出了一種新的基于輸入圖像生成自然語言描述的方法。針對輸入的圖像,我們首先生成有語義的圖像總結(jié),然后利用這種圖像總結(jié)來產(chǎn)生自然語言描述。我們利用詞性標(biāo)簽序列來表達(dá)這種總結(jié)內(nèi)容,再利用這種表達(dá)來驅(qū)動圖像描述的生成。
我們的方法實現(xiàn)了
(1)更高的準(zhǔn)確率;
(2)比傳統(tǒng)波束搜索等更快的多樣化句子生成速度;
(3)更加多樣化的語言描述。
2.無監(jiān)督圖像描述生成
Unsupervised Image Captioning
本文由騰訊 AI Lab 主導(dǎo),與羅切斯特大學(xué)合作完成,提出了一種無監(jiān)督圖像描述生成模型。深度神經(jīng)網(wǎng)絡(luò)模型在圖像描述任務(wù)上取得了巨大的成功。但是大多數(shù)現(xiàn)有的圖像描述模型都依賴圖像-句子對,而這種圖像-句子對的收集過程又成本高昂。本文首次嘗試用無監(jiān)督的方式來訓(xùn)練圖像描述模型。
我們提出的方法僅需要一個圖片集、一個句子集和一個已有的檢測模型。我們用句子集來讓圖像描述模型學(xué)習(xí)如何生成通順的句子,同時我們把檢測模型的知識蒸餾到圖像描述模型當(dāng)中,從而使得后者可以識別圖像內(nèi)容。為了讓圖像和生成的描述更加相關(guān),我們把圖像和描述語句投影到了同一個語義空間。因為已有的句子集主要是為語言研究設(shè)計的,它們涉及的圖像內(nèi)容不多,并不適合用于無監(jiān)督圖像描述研究。所以我們從網(wǎng)上下載了二百萬個圖像描述用于此項研究。實驗表明我們提出的模型可以在沒有使用任何標(biāo)注句子的情況下,生成合理的圖片描述。
圖像分割
Image Segmentation
圖像分割是指將圖像細(xì)分為多個圖像子區(qū)域(像素的集合)的過程,可簡化或改變圖像的表示形式,使得圖像更容易理解和分析。圖像分割可用于定位圖像中的物體和邊界,這在移動機器人和自動駕駛等需要對目標(biāo)的范圍有精確判定的應(yīng)用中具有非常重要的價值。圖像分割方面的難題包括如何設(shè)定不同的分割層次、分析不常見目標(biāo)的形狀、不同視角與深度的場景、對遮擋情況的處理以及邊緣的精確認(rèn)定等等。
騰訊AI Lab 有多篇 CVPR 入選論文在圖像和視頻分割上做出了有價值的貢獻。除了前文用于視頻對象分割的 MHP-VOS,我們還提出了一種不依賴于物體檢測的人體實例分割方法,并為之創(chuàng)造了一個新的數(shù)據(jù)集。另外,我們還探索了室內(nèi)場景形義分割與人群計數(shù)問題。
1.Pose2Seg:不依賴于物體檢測的人體實例分割
Pose2Seg: Detection Free Human Instance Segmentation
本文由騰訊AI Lab、清華大學(xué)和卡迪夫大學(xué)合作完成,提出了一種不依賴于物體檢測的人體實例分割方法和一個新的數(shù)據(jù)集。目前主流的圖像實例分割方法大多需要首先從圖像中檢測物體的包圍框,然后從包圍框中分割目標(biāo)對象。Mask R-CNN 等最新的一些工作將這兩個步驟合二為一。
但是很少有研究考慮到“人”這一類別的特殊性——“人”不僅可以通過包圍框定位實例,還可以通過骨骼姿態(tài)檢測來定位。同時,在一些嚴(yán)重遮擋的情況下,相比于包圍框,人體骨骼姿態(tài)可以更有效地區(qū)分不同的實例。
本文提出了一種全新的基于姿態(tài)的人體實例分割框架,可通過人體姿態(tài)檢測來分離實例。我們通過大量實驗證明了基于姿態(tài)的實例分割框架可以比最先進的基于包圍框的實例分割方法獲得更好的準(zhǔn)確性,同時還可以更好地處理遮擋情況。
此外,由于目前很少有公開數(shù)據(jù)集包含大量的豐富標(biāo)注的嚴(yán)重遮擋實例,使得遮擋問題很少被研究者注意到。在本文中我們還公開了一個新的數(shù)據(jù)集“Occluded Human (OCHuman)”。這個數(shù)據(jù)集包含4731張圖像,有8110個詳細(xì)標(biāo)注的人體實例。標(biāo)注信息包括包圍框、實例分割掩碼以及人體姿態(tài)關(guān)鍵點。全部人體實例都存在嚴(yán)重的互相遮擋,因此這個數(shù)據(jù)集是目前最有挑戰(zhàn)的數(shù)據(jù)集。通過這個數(shù)據(jù)集,我們希望強調(diào)遮擋問題的挑戰(zhàn)性,并推動在檢測以及分割中對遮擋問題的研究。
2.基于幾何感知知識蒸餾方法的室內(nèi)場景形義分割
Geometry-Aware Distillation for Indoor Semantic Segmentation
本文由騰訊AI Lab與伊利諾伊大學(xué)香檳分校、香港城市大學(xué)合作完成,提出了一種新的室內(nèi)場景語義分割方法。已有研究表明,聯(lián)合推理來自RGB-D域的2D外觀和3D信息有利于室內(nèi)場景語義分割。然而,大多數(shù)現(xiàn)有方法需要精確的深度圖作為輸入來分割場景,這嚴(yán)重限制了它們的應(yīng)用。
在本文中,我們提出通過提取幾何感知嵌入特征來聯(lián)合推斷語義和深度信息,以消除這種強約束,同時仍然利用有用的深度域信息。
此外,我們還提出了幾何感知傳播框架和多級跳過特征融合模塊,可使用這種學(xué)習(xí)嵌入來提高語義分割的質(zhì)量。通過將單個任務(wù)預(yù)測網(wǎng)絡(luò)解耦為語義分割和幾何嵌入學(xué)習(xí)這兩個聯(lián)合任務(wù),加上我們提出的信息傳播和特征融合架構(gòu),我們在若干公開的具有挑戰(zhàn)性的室內(nèi)數(shù)據(jù)集上進行了實驗,結(jié)果表明我們的方法可以超過目前最先進的語義分割方法。
應(yīng)用價值:
3.基于殘差回歸和形義先驗的人群計數(shù)
Residual Regression with Semantic Prior for Crowd Counting
本文由騰訊AI Lab主導(dǎo),與香港城市大學(xué)合作完成。人群計數(shù)是一個很有挑戰(zhàn)性的問題。最近基于深度學(xué)習(xí)的方法雖然取得了一些進展,但是樣本之間的相關(guān)性帶來的知識還沒被全面挖掘。本文提出了利用殘差回歸來學(xué)習(xí)樣本之間的相關(guān)性。通過融入相關(guān)性,我們實現(xiàn)了人群計數(shù)性能的提升。我們也展示了怎樣如何有效地利用形義先驗來提升模型性能。另外我們還觀察到對抗損失可以用來提升預(yù)測的密度圖質(zhì)量,繼而提升結(jié)果。實驗結(jié)果證明了我們方法的有效性和泛化能力。
機器學(xué)習(xí)和優(yōu)化方法
Machine Learning and Optimization Methods
基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)確實已經(jīng)推動計算機視覺領(lǐng)域?qū)崿F(xiàn)了巨大的進步,但這個方法還遠(yuǎn)非完美,在少樣本學(xué)習(xí)、學(xué)習(xí)效率和泛化能力等問題上還有很多改進的空間。同時,人工智能研究界也在不斷探索新的機器學(xué)習(xí)方法以及為各種機器學(xué)習(xí)技術(shù)提供理論驗證和支持。
今年的 CVPR 上,我們?nèi)脒x的論文涵蓋單樣本學(xué)習(xí)、開放域?qū)W習(xí)、模型壓縮、多任務(wù)與自適應(yīng)學(xué)習(xí)等多個研究方向,也在訓(xùn)練方法等方面做出了一些理論研究貢獻——我們首次提出了一種全新的用于保證 Adam/RMSProp 的全局收斂性的充分條件,還提出了一種用于稀疏廣義特征值問題的分解算法。
1.為視覺環(huán)境構(gòu)建動態(tài)樹結(jié)構(gòu)的學(xué)習(xí)方法
Learning to Compose Dynamic Tree Structures for Visual Contexts
本文由騰訊AI Lab與新加坡南洋理工大學(xué)合作完成,是CVPR oral 展示論文之一。我們提出了一種動態(tài)樹構(gòu)建方法,可將圖像中的物體放置到一個完整的視覺環(huán)境中。該方法有助于解決場景圖生成、視覺問答等視覺推理問題。
相比于現(xiàn)有的結(jié)構(gòu)化物體表示方法,我們提出的視覺環(huán)境樹模型VCTree具有兩大優(yōu)點:1)二叉樹非常高效且具有很強的表示能力,可以學(xué)習(xí)物體之間內(nèi)在的并行或?qū)哟侮P(guān)系(例如,“衣服”和“褲子”往往同時出現(xiàn),且它們都屬于人的一部分);2)不同圖像和任務(wù)的動態(tài)結(jié)構(gòu)往往各有不同,我們的模型能捕獲這種變化,從而在物體之間傳遞依賴于具體圖像內(nèi)容和任務(wù)的信息。
在構(gòu)建VCTree時,我們設(shè)計了一種評分函數(shù)來計算每一對物體和給定任務(wù)的有效性,從而得到物體之間的評分矩陣。然后我們在該評分矩陣上構(gòu)建最大生成樹,并進行二值化。隨后,我們采用雙向樹LSTM模型對VCTree進行編碼,并利用任務(wù)相關(guān)的模型進行解碼。我們開發(fā)了一種混合學(xué)習(xí)流程,將監(jiān)督學(xué)習(xí)和樹結(jié)構(gòu)強化學(xué)習(xí)結(jié)合到了一起。我們在場景圖生成和視覺問答這兩個視覺推理任務(wù)上進行了充分的實驗,結(jié)果表明VCTree不僅在這兩個任務(wù)上優(yōu)于當(dāng)前最佳方法,同時還能挖掘出可解釋的視覺環(huán)境。
2.基于五胞胎損失的步態(tài)聯(lián)合學(xué)習(xí)
Learning Joint Gait Representation via Quintuplet Loss Minimization
本文由騰訊AI Lab主導(dǎo),與澳洲國立大學(xué)合作完成,是CVPR oral 展示論文之一。步態(tài)識別是指通過走路的模態(tài)來遠(yuǎn)距離地識別一個人,這是視頻監(jiān)控領(lǐng)域一個重要問題?,F(xiàn)有的方法要么是通過單張步態(tài)圖來學(xué)習(xí)獨一的步態(tài)特征,要么是通過一對步態(tài)圖來學(xué)習(xí)不同的步態(tài)特征。有證據(jù)表明這兩種方法是互補的。
在本文中,我們提出了一種步態(tài)聯(lián)合學(xué)習(xí)的網(wǎng)絡(luò),其融合了這兩種方法的優(yōu)勢。另外,我們還提出了一種“五胞胎損失”,通過該損失可以同時最小化類內(nèi)差和最大化類間差。實驗結(jié)果表明我們提出的方法取得了當(dāng)前的最佳性能,超過了現(xiàn)有的方法。
3.基于圖像變形元網(wǎng)絡(luò)模型的單樣本學(xué)習(xí)
Image Deformation Meta-Networks for One-Shot Learning
本文由騰訊AI Lab、復(fù)旦大學(xué)、卡耐基梅隆大學(xué)合作完成,是CVPR oral 展示論文之一。人類可以精確地識別和學(xué)習(xí)圖像,即使圖像缺少了一塊或與另一幅圖像相重疊。結(jié)合這種能力來合成包含新概念的變形實例可以幫助視覺識別系統(tǒng)完成更好的單樣本學(xué)習(xí),即從一個或少數(shù)幾個示例中學(xué)習(xí)相應(yīng)的視覺概念。
我們的主要觀點是:雖然變形的圖像可能在視覺上不真實,但它們?nèi)匀槐S嘘P(guān)鍵的形義信息,并且對相應(yīng)的分類器決策邊界有很大貢獻。受到最近元學(xué)習(xí)進展的啟發(fā),我們將元學(xué)習(xí)者與圖像變形子網(wǎng)絡(luò)結(jié)合起來,進而產(chǎn)生額外的訓(xùn)練樣例,并以端到端的方式同時優(yōu)化兩個模型。變形子網(wǎng)絡(luò)通過融合一對圖像來得到相應(yīng)的變形圖像。在業(yè)界公認(rèn)的單樣本學(xué)習(xí)的基準(zhǔn)數(shù)據(jù)集上(即miniImageNet和ImageNet 1K Challenge),我們所提出的方法明顯優(yōu)于現(xiàn)有技術(shù)。
4.Adam 和 RMSProp 收斂的充分條件
A Sufficient Condition for Convergences of Adam and RMSProp
本文由騰訊AI Lab主導(dǎo),與石溪大學(xué)合作完成,是CVPR oral 展示論文之一。Adam/RMSProp作為用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的兩種最有影響力的自適應(yīng)隨機算法,已經(jīng)從理論上被證明是發(fā)散的。針對這一問題,目前的作法是通過對 Adam/RMSProp 的算法結(jié)構(gòu)進行修改來促進Adam/RMSProp 及其變體收斂。常用的策略包括:降低自適應(yīng)學(xué)習(xí)速率、采用大的batch-size、減少學(xué)習(xí)率與梯度的相關(guān)性。
在本文中,我們首次提出了一種全新的充分條件來保證 Adam/RMSProp的全局收斂性。該充分條件僅取決于基本學(xué)習(xí)速率參數(shù)和歷史二階矩的線性組合參數(shù), 并且無需對 Adam/RMSProp 算法結(jié)構(gòu)做任何修改。根據(jù)文中提出的充分條件,我們的結(jié)論直接暗含 Adam 的幾個變體(AdamNC、AdaEMA等)的收斂性。
另外,我們嚴(yán)格說明 Adam 可以等價地表述為具有指數(shù)移動平均動量的 Weighted AdaGrad,從而為理解 Adam/RMSProp 提供了新的視角。結(jié)合這種觀察結(jié)果與文中提出的充分條件,我們更深入地解釋了Adam/RMSProp 發(fā)散的本質(zhì)原因。最后,我們實驗了應(yīng)用 Adam/RMSProp 來解決反例和訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),從而對本文提出的充分條件進行了驗證。結(jié)果表明,數(shù)值結(jié)果與理論分析完全一致。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
Ps:想要了解更多頂會動態(tài)?那就點擊鏈接加入CVPR頂會交流小組吧
https://ai.yanxishe.com/page/meeting/44%EF%BC%9F=leifeng
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。