0
本文作者: AI研習社 | 2019-06-25 17:45 | 專題:CVPR 2019 |
本文轉載至公眾號:騰訊技術工程
已獲得授權
計算機視覺頂級會議 CVPR 2019 將于 6 月 15 日– 6 月 21 日在加利福尼亞州長灘舉辦,今年騰訊公司共有 58 篇論文入選,其中騰訊 AI Lab 33 篇(含 8 篇oral),騰訊優(yōu)圖實驗室 25 篇。騰訊 AI Lab 入選論文涉及視頻理解、人臉識別、對抗攻擊、視覺-語言描述、模型壓縮和多任務學習等幾大重點研究方向,下面將分組介紹論文。往年參會入選論文可見公眾號歷史文章。
注:本文分組方式并不嚴格,部分論文同時分屬多個主題。
對抗攻擊
Against Attack
深度神經網絡在很多應用領域都取得了驚人的效果,比如圖像分類和人臉識別。但與此同時,深度神經網絡也是十分脆弱的。最典型的例子就是對抗攻擊,具體而言,在輸入樣本(比如圖像)上加入人類難以察覺的微小噪聲,可以讓深度神經網絡的預測出現(xiàn)嚴重偏差。對抗攻擊的研究,對于加強深度神經網絡的安全性以及可解釋性,具有很重要的意義。以往大多數(shù)研究工作集中在白盒對抗攻擊和非結構化輸出模型的攻擊,而我們CVPR 2019的入選論文重點研究了更具挑戰(zhàn)的黑盒對抗攻擊,和對結構化輸出模型的攻擊。
1.針對人臉識別的基于決策的高效黑盒對抗攻擊方法
Efficient Decision-based Black-box Adversarial Attacks on Face Recognition
本文由騰訊AI Lab主導,與清華大學合作完成,是在黑盒對抗攻擊領域的一項重要探索。近年來,基于深度卷積神經網絡的人臉識別取得了顯著的成就。但是,深度卷積神經網絡很容易受到對抗樣本的攻擊。因此,人臉識別系統(tǒng)的安全性也可能受到很大的威脅。
為了驗證當前最先進人臉識別模型的安全性能,我們研究了基于決策的黑盒攻擊,即無法獲知人臉識別模型的參數(shù)或結構,只能通過詢問來獲取模型的結果。這種設定完全符合現(xiàn)實情況下的攻擊情形。我們提出了一種基于進化算法的高效攻擊方法,其充分利用了搜索空間的局部幾何特性,并通過對搜索空間進行降維來提高攻擊效率。實驗表明我們的攻擊方法比已有的黑盒攻擊方法更高效。同時,我們還對第三方人臉識別系統(tǒng)進行了攻擊驗證,也充分展示了我們方法的優(yōu)越性能。
2.基于帶有隱變量的結構化輸出學習的圖像描述精準對抗攻擊
Exact Adversarial Attack to Image Captioning via Structured Output Learning with Latent Variables
本文由騰訊AI Lab 主導,與電子科技大學合作完成,探索了對圖像描述模型實現(xiàn)精準對抗攻擊的方法。對抗攻擊對深度學習模型存在嚴重威脅,揭示了深度神經網絡的脆弱性。研究對抗攻擊有助于理解深度學習模型的內部機制,也能幫助提升模型的安全性,具有非常高的研究和實用價值。已有對抗攻擊方法主要以帶有獨立輸出的模型為攻擊對象,但很多問題的輸出結果往往是結構化的,比如在基于 CNN+RNN 的圖像描述問題中,輸出是一個序列。
我們以基于 CNN+RNN 的圖像描述模型為具體對象,在業(yè)內第一次定義了“精準結構化攻擊”,即通過優(yōu)化對抗樣本,迫使模型在特定位置輸出特定的詞。由于輸出序列內部的關聯(lián)性,現(xiàn)有的針對獨立輸出的攻擊方法無法在序列輸出問題中實現(xiàn)精準攻擊。
我們的具體做法是將精準結構化攻擊問題建模成帶有隱變量的結構化輸出學習模型;此外我們還展示了兩種優(yōu)化算法。我們對當前最流行的圖像描述模型進行了精準攻擊實驗,結果展現(xiàn)了非常高的攻擊成功率和非常低的對抗噪聲。
另外,我們還將精準結構化攻擊算法作為探測結構化輸出空間的工具,揭示出當前圖像描述模型還沒有很好地掌握人類的語法規(guī)則,比如被動語態(tài)和定語從句。這為進一步縮小圖像描述模型與人類描述的差距指明了方向。同時,本文所提出的模型和算法與具體圖像描述模型無關,可輕松地用于攻擊其它結構化模型。
視頻深度理解
Deep Understanding of Videos
機器要理解世界,就必需要處理和分析周圍動態(tài)環(huán)境能力。視頻的分析與處理在移動機器人、自動駕駛、監(jiān)控視頻分析等許多應用中都是至關重要的技術,甚至關乎使用者的生命安全。同時,近些年基于卷積神經網絡(CNN)的方法已經在靜態(tài)圖像分析方面取得了重大的進展和突破,所以計算機視覺領域的研究重心也正向動態(tài)的視頻領域傾斜。
與靜態(tài)的圖像處理相比,視頻分析面臨著一些特有的難題,比如識別、跟蹤與重新判定視頻中目標的身份,預測目標的運動軌跡,多目標跟蹤,分析視頻內容并提取相關片段等。
騰訊 AI Lab 入選的 33 篇論文中有 9 篇與視頻直接相關,涉及到光流學習、視頻對象分割、目標跟蹤和視頻定位等多個研究方向
1.一種自監(jiān)督的光流學習方法
SelfFLow: Self-Supervised Learning of Optical Flow
本文由騰訊AI Lab 主導,與香港中文大學合作完成,是CVPR oral 展示論文之一。光流是計算機視覺的一個基本任務,它描述了運動的信息,也有很多應用場景,比如物體跟蹤、視頻分析、三維重建、自動駕駛等。我們探索了使用卷積神經網絡估計光流的一個關鍵挑戰(zhàn):預測被遮擋像素的光流。
首先,我們提出了一種從沒有標注的數(shù)據中學習光流的自監(jiān)督框架。這個方法會人為創(chuàng)造一些遮擋,然后利用已經學習到的比較準確的沒有被遮擋像素的光流去指導神經網絡學習被遮擋像素的光流。
其次,為了更好地學習光流,我們設計了一個可以利用多幀圖像時序連續(xù)性的網絡結構?;谶@兩個原則,我們的方法在MPI Sintel、KITTI 2012和KITTI 2015等數(shù)據集上取得了最好的無監(jiān)督效果。更重要的是,我們的無監(jiān)督方法得到的模型能為有監(jiān)督的微調提供一個很好的初始化。經過有監(jiān)督微調,我們的模型在以上三個數(shù)據集上取得了目前最優(yōu)的性能。在寫這篇文章的時候,我們的模型在Sintel數(shù)據集上取得EPE=4.26 的成績,超過所有已經提交的方法。
框架概況:左側是每一層級的網絡架構,右側是我們的自監(jiān)督訓練策略
2.MHP-VOS: 基于多假設傳播的視頻對象分割
MHP-VOS: Multiple Hypotheses Propagation for Video Object Segmentation
本文由騰訊AI Lab與華中科技大學合作完成,是CVPR oral 展示論文之一。本文首先闡述了半監(jiān)督視頻對象分割(VOS)問題,其中感興趣的對象的掩碼在輸入視頻的第一幀中給出。要處理對象被遮擋或丟失的高難度案例,以前的工作依賴于貪婪的數(shù)據關聯(lián)策略為每幀單獨制定決策。在本文中,我們提出了一種對于每個幀中的目標對象推遲決策的新方法,直到全局地考慮了整個視頻后才進行決策。
我們的方法與多假設跟蹤(MHT)方法一脈相承,但也進行了幾項關鍵的修改以適用于VOS問題。我們使用的是掩模假設而不是方框假設,這能讓我們設計出更專門定制的VOS算法。具體來說,從第一幀中的初始對象掩碼開始,通過將前一幀的掩模傳播到后一幀門控區(qū)域里檢測到的方框建議來生成多個假設。該門控區(qū)域是通過一種門控方案來確定的,該方案考慮了更全面的運動模型,而不是傳統(tǒng)MHT中的簡單卡爾曼濾波模型。我們設計了一個全新的掩模傳播分數(shù),而不是MTH中的外觀相似度分數(shù),因為外觀相似度分數(shù)在物體變形較大時不夠魯棒。該掩模傳播分數(shù)與運動分數(shù)一起,共同確定了多個假設之間的親近關系,這個親近關系可以用于后續(xù)的假設樹的剪枝算法。
此外,我們還提出了一種新穎的掩模合并策略,用以處理多個被跟蹤物體之間的掩模沖突。實驗表明,該方法能有效處理具有挑戰(zhàn)性的數(shù)據集,特別是在對象丟失的情況下。
3.PA3D:基于3D 姿態(tài)-動作的視頻識別
PA3D: Pose-Action 3D Machine for Video Recognition
本文由騰訊AI Lab與中國科學院深圳先進技術研究院合作完成。目前大多數(shù)動作識別方法都采用3D CNN提取特征,但這些方法都是基于RGB和光流,并未完全利用動作的動態(tài)變化規(guī)律。本文提出的精確Pose-Action 3D Machine方法能夠在統(tǒng)一的 3D 框架下有效地編碼多種姿態(tài)以及學習時空域姿態(tài)表征,進而實現(xiàn)更好的動作識別。我們在三個公開數(shù)據集上進行了測試,結果表明本文提出的方法優(yōu)于已有的基于姿態(tài)的動作識別方法。
4.具有目標感知能力的追蹤框架
Target-Aware Deep Tracking
本文由哈爾濱工業(yè)大學、騰訊AI Lab、上海交通大學與加州大學默塞德分校合作完成,提出了一種具有目標感知能力的追蹤框架。當前基于深度學習的追蹤方法常使用的深度特征提取都是在分類任務上預訓練好的。盡管這樣的做法在多個視頻領域取得了很大的成功,但是在追蹤領域中,其有效性還未得到深入挖掘。
關鍵原因是在追蹤任務中,目標物體類別和形式是未知的和不確定的,只有在追蹤開始時才確定。直接使用在類別固定的分類任務上訓練的深度特征,難以對追蹤中的目標進行有效地建模。為此,我們提出了一個基于梯度值的機制去學習能夠感知目標的特征。鑒于此,我們構建了一個回歸損失和一個排序損失來分別指導模型,生成能夠有效表征目標的特征和對于目標大小變化敏感的特征。
具體來講,我們首先利用反向傳播算法計算每個損失對于各個濾波器的梯度,然后根據梯度值的大小來確定每個濾波器的重要性,以此來生成適用于追蹤的特征。我們將具有目標感知性的特征用于孿生網絡框架來實現(xiàn)追蹤。大量的實驗結果表明,相較于當前的主流方法,我們提出的方法不論是在準確率方面還是在運行速度方面都能取得不錯的效果。
5.深度無監(jiān)督式目標跟蹤
Unsupervised Deep Tracking
本文由騰訊AI Lab主導,與中科大和上海交通大學合作完成,提出了一種基于無監(jiān)督學習的目標跟蹤方法。不同于之前的利用大量標注數(shù)據的監(jiān)督學習方法,我們是利用未標注的視頻數(shù)據來訓練深度卷積網絡。我們的啟示是一個魯棒的跟蹤 器應當在前向和后向的跟蹤過程中均有效,即跟蹤 器能夠前向跟蹤目標物體并逐幀回溯到第一幀的初始狀態(tài)。我們利用孿生網絡實現(xiàn)了新提出的方法,該網絡完全由沒有標注的視頻數(shù)據訓練而成。
與此同時,我們提出了一個利用多軌跡優(yōu)化和損失敏感的衡量函數(shù)來進一步提升跟蹤性能。單純利用無監(jiān)督學習方法,我們的跟蹤 器就能達到需要精確和完整訓練數(shù)據的全監(jiān)督學習的基本水平。更值得關注的是,我們提出的無監(jiān)督學習框架能夠更深入地利用未標注或者部分標注的數(shù)據來進一步提升跟蹤性能。
6.基于WarpLSTM的時空視頻再定位
Spatio-Temporal Video Re-localization by Warp LSTM
本文由騰訊AI Lab主導,與羅切斯特大學合作完成。隨著網絡上視頻井噴式的增長,高效地找到用戶想要的視頻的需求也隨之增長?,F(xiàn)有的基于關鍵詞的檢索方法只能獲知某些視頻內容存在與否,并不能獲知視頻內容出現(xiàn)的時間和位置。本文提出了定位視頻內容出現(xiàn)的時間和位置的時空視頻再定位任務。給出一個查詢視頻和一個備選視頻,時空視頻再定位任務的目標是在備選視頻當中找到一個和查詢視頻相關的時空片段。
為了準確地定位,我們提出了一個新的WarpLSTM網絡,這種網絡的優(yōu)勢是它可以提取視頻當中的長時間的時空信息。為了解決時空視頻再定位問題遇到的另外一個困難,即缺少標注數(shù)據,我們重新組織了AVA數(shù)據集當中的視頻,得到了一個用于時空再定位研究的新數(shù)據集。實驗表明我們提出的模型能取得優(yōu)于基線方法的定位結果。
7.不是所有幀都相同:基于上下文相似度和視覺聚類損失的弱監(jiān)督視頻定位
Not All Frames Are Equal: Weakly Supervised Video Grounding with Contextual Similarity and Visual Clustering Losses
本文由騰訊AI Lab與羅徹斯特大學合作完成。我們研究的問題是僅提供視頻層面的句子描述的弱監(jiān)督視頻定位,即在沒有物體位置標注的情形下將語言的關鍵詞定位到視頻中的空間中。這是一個有挑戰(zhàn)性的任務;首先,視頻中有許多幀,會出現(xiàn)幀和語言描述不一定匹配的不一致問題;其次,盡管網絡中有大量的視頻,但是標注物體位置具有高昂的成本。并且。之前的基于多示例學習(MIL)的圖像定位方法難以有效用于視頻定位。最近的工作試圖將視頻層級的MIL分解為幀級別的MIL,通過將句子與幀之間的相似度作為權重作用到每一幀上,但是這樣做并不魯棒并且無法利用豐富的時序信息。
在本文中,我們利用假陽性幀包(frame-bag)限制來擴展幀級別的MIL,并且建模了視頻時序特征一致性。特別地,我們設計了形義和視覺特征的上下文相似度,從而克服物體在幀與幀之間的稀疏問題。更進一步,我們通過強化視覺空間中相似的特征來利用時序上的連貫性。我們在YouCookII和RoboWatch數(shù)據集上全面評估了這個模型,結果表明我們的方法較之間方法能夠大幅度提升性能。
8.基于多粒度分析的時序動作提名生成器
Multi-granularity Generator for Temporal Action Proposal
本文由騰訊AI Lab主導,與東南大學、哥倫比亞大學合作完成。時序動作提名是一項重要任務,其目的在于定位未修剪視頻中含有人類動作的視頻片段。我們提出了使用多粒度生成器來完成時序動作提名,其能從不同的粒度分析視頻并嵌入位置信息。
首先,我們使用雙線性匹配模塊來探索視頻序列中豐富的局部信息,隨后我們提出的片段動作生產器和幀動作生成器兩個模塊能從不同的粒度分析視頻。片段動作生產器以粗粒度的方式,通過特征金字塔的形式感知整個視頻并產生長度各異的動作提名;幀動作生成器則對每一個視頻幀采取細粒度的分析。雖然多粒度生成器涉及多個模塊,在訓練過程中卻能以端到端的形式進行?;趲瑒幼魃善骷毩6鹊姆治?,片段動作生產器產生的動作提名可以被進一步位置微調,從而實現(xiàn)更精準的定位。
因此,相比于目前最優(yōu)的模型,多粒度生成器在兩個公開的數(shù)據集ActivityNet1.3和Thumos14上都獲得了更好的效果。另一方面,在多粒度生成器產生的動作提名基礎上采用現(xiàn)有的分類器進行分類,相比于目前性能較優(yōu)的視頻檢測方法,多粒度生成器都獲得了明顯的提升。
9.基于預測運動和外觀統(tǒng)計量的自監(jiān)督視頻時空表征學習
Self-supervised Spatio-temporal Representation Learning for Videos by Predicting Motion and Appearance Statistics
本文由騰訊AI Lab與香港中文大學、華南理工大學合作完成。本文首先闡述了在無人工標注標簽時的視頻表征學習問題。雖然之前也有工作通過設計新穎的自監(jiān)督任務來進行視頻的表征學習,但學習的表征一般都基于單幀圖像,而無法用于需要多幀時空特征的主流視頻理解任務。我們在本文中提出了一種新穎的自監(jiān)督方法,可學習視頻的多幀時空表征。
受到視頻分類任務中的two-stream類方法的啟發(fā),我們提出通過回歸時空兩個維度的運動和外觀的統(tǒng)計量來進行視覺特征學習。
具體來說,我們在多個視頻幀的時空兩個維度上提取一些統(tǒng)計概念(例如快速運動區(qū)域及其相應的主要運動方向、時空上的色彩多樣性、主導顏色等)。不同于之前的一些預測稠密像素值的方法,我們提出的方法與人類固有的視覺習慣一致,并且易于學習。我們用C3D作為基干網絡進行了大量實驗,結果表明該方法可以顯著提高C3D用于視頻分類等任務時的性能。
人臉
Human Face
人臉分析與識別已經在一些娛樂、安檢和身份校驗等應用中得到了實際應用,但該領域仍存在一些有待解決的問題,比如如何適應視角變化、如何在不同的環(huán)境(比如弱光環(huán)境)中有效工作、如何鑒別被識別的臉是否真實、如何判別相似的人臉(比如臉部一樣的雙胞胎)、如何識別特殊的人臉(比如受傷或有偽裝的人臉)以及分析人臉隨時間的變化。另外,人臉的重建也是很重要的研究方向,在游戲和虛擬助手等方面有很有價值的應用前景。
騰訊 AI Lab 今年有多篇與人臉相關的研究論文入選 CVPR,涉及到跨年齡人臉識別、人臉活體檢測和、多視角 3D 人臉重建、人臉面部動作單位強度估計、人臉識別系統(tǒng)的對抗攻擊研究等方向。其中,在人臉活體檢測方面的研究與我們支持的云智慧眼業(yè)務密切相關,這是我們在公司內首推而且在 H5 場景下屬于業(yè)界首創(chuàng)的靜默活體檢測技術(靜默活體檢測指的是不需要用戶交互配合即可完成人臉活體檢測,非常易用。
1.人臉活體檢測:模型很重要,數(shù)據也是
Face Anti-Spoofing: Model Matters, So Does Data
本文由騰訊AI Lab主導,與上海交通大學合作完成,為人臉活體檢測提出了一種新模型和新的數(shù)據收集方法?;铙w檢測在全棧的人臉應用中扮演著重要的必不可少的角色,它的目的是為了檢測攝像頭前的人臉是真人樣本還是偽造的攻擊樣本(比如翻拍的人臉照片或者預先錄制的人臉視頻等)。
以往方法的模型通常基于一些不能很好模擬真實場景的數(shù)據庫,這會影響到模型的泛化性能。本文提出了一種數(shù)據收集的解決方案,可以很好地模擬真實的活體攻擊,從而能以很低的成本快速獲取大量訓練數(shù)據。
我們還開發(fā)了一個利用時空信息的活體檢測模型,將當前公開數(shù)據庫上面的性能推進了一大步。我們的模型可以自動關注有助于區(qū)分活體和非活體的局部區(qū)域,這也能幫助我們分析網絡的行為。實驗結果也表明我們的模型可以關注到摩爾紋、屏幕邊緣等一些區(qū)域,進而實現(xiàn)更好的活體檢測。
2.針對跨年齡人臉識別的去相關對抗學習
Decorrelated Adversarial Learning for Age-Invariant Face Recognition
本文由騰訊AI Lab獨立完成??缒挲g人臉識別問題受到了非常廣泛的研究關注。然而,識別年齡間隔較大的人臉圖像仍然非常具有挑戰(zhàn)性,這主要是因為年齡變化會引起人臉圖像呈現(xiàn)出較大的差異。
為了減少年齡變化所造成的差異,本文提出一個全新的算法,目的在于去除混合了身份和年齡信息的人臉特征中的年齡成分。具體而言,我們將混合的人臉特征分解成為兩個不相關的組成成分:身份成分和年齡成分,其中的身份成分包含了對人臉識別有用的信息。
為了實現(xiàn)這個想法,我們提出去相關的對抗學習算法,其中引入了一個典型映射模塊,用于得到生成的成分特征之間的最大相關性,與此同時主干網絡和特征分解模塊則用于生成特征以最小化這個相關性。這樣,主干網絡能夠學習得到身份特征和年齡特征并使得其相關性顯著降低。與此同時,身份特征和年齡特征通過身份保持和年齡保持的監(jiān)督信號進行學習,以確保它們的信息正確。我們在公開的跨年齡人臉識別數(shù)據集(FG-NET、MORPH Album 2 和 CACD-VS)進行了實驗,結果表明了這個方法的有效性。
3.MVF-Net: 多視角3D人臉可變形模型的參數(shù)回歸
MVF-Net: Multi-View 3D Face Morphable Model Regression
本文由騰訊AI Lab主導,與香港中文大學合作完成。本文闡述的問題是用多視角人臉圖片作為輸入重建3D人臉模型。雖然最新的基于3D人臉可變形模型(3DMM)的方法取得了不少進步,但大部分工作仍局限于單張照片的輸入。
單張照片3D人臉重建有一個內在的缺點:缺乏3D約束會導致無法解決的幾何結構混淆。我們在本文中探索了給定多視角人臉照片輸入的設定下進行基于3DMM的3D人臉重建問題。我們提出了一種全新的使用端到端卷積神經網絡來回歸3DMM參數(shù)的方法。在這個方法中,通過使用一種新型的自監(jiān)督視角對齊損失函數(shù),模型能建立不同視角之間的稠密像素對應關系,從而引入多視角幾何約束。
該新型損失函數(shù)使用可導的光流估計模塊將投影合成的目標視角圖像與原始輸入圖像之間的對齊誤差反向傳播回3DMM參數(shù)的回歸中。這樣就能在最小化損失函數(shù)的過程中恢復對齊誤差較小的3D形狀。實驗驗證了多視角照片輸入相對于單張照片輸入的優(yōu)勢。
4.基于聯(lián)合表征和估計器學習的人臉面部動作單元強度估計
Joint Representation and Estimator Learning for Facial Action Unit Intensity Estimation
本文由騰訊AI Lab主導,與中科院自動化研究所和美國倫斯勒理工學院合作完成,提出了一種用于人臉面部動作單元強度估計的新方法。人臉面部動作單元描述的是人臉上局部的肌肉運動,對其強度的估計面臨著兩個難題:其表觀變化難以捕捉;含有面部動作單元標注的數(shù)據集較少。
我們針對這些難題提出了一個樣本特征和回歸模型聯(lián)合學習框架。該框架可以靈活地嵌入各種形式的先驗知識,且僅需少量標注數(shù)據集即可進行模型學習。實驗結果表明,該方法在標注數(shù)據較少時能得到比現(xiàn)有算法更好的結果。深度學習模型可視為聯(lián)合學習特征和回歸的模型,但訓練數(shù)據不足時會發(fā)生嚴重的過擬合;而我們提出的方法即使僅有 2% 的標注數(shù)據,也依然可以達到較好的效果。
視覺-語言技術
Visual - Language Technology
視覺和語言是人類了解世界以及與世界交流的兩種主要方式,深度學習技術的發(fā)展為這兩個原本相對獨立的學科搭建了橋梁,使這個交叉領域成為了計算機視覺和自然語言處理的重要研究方向。這個研究方向的基本問題是用語言描述圖像或視頻中的內容,在此基礎上,我們可以查詢圖像或視頻中與語言描述相關的部分,甚至根據語言描述的內容生成對應的視覺內容。視覺-語言技術在視頻網站、視頻處理、游戲以及與人溝通的機器人等許多領域都會有重要的應用。
騰訊 AI Lab 有多篇 CVPR 入選論文探索了這一技術領域的新方法,除了下面的兩篇,上文“視頻”部分也介紹了基于語言查詢定位視頻片段的研究。
1.基于詞性的快速準確且多樣化的圖像生成自然語言描述方法
Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech
本文由美國伊利諾伊大學香檳分校(UIUC)與騰訊AI Lab 合作完成,是CVPR oral 展示論文之一,提出了一種新的基于輸入圖像生成自然語言描述的方法。針對輸入的圖像,我們首先生成有語義的圖像總結,然后利用這種圖像總結來產生自然語言描述。我們利用詞性標簽序列來表達這種總結內容,再利用這種表達來驅動圖像描述的生成。
我們的方法實現(xiàn)了
(1)更高的準確率;
(2)比傳統(tǒng)波束搜索等更快的多樣化句子生成速度;
(3)更加多樣化的語言描述。
2.無監(jiān)督圖像描述生成
Unsupervised Image Captioning
本文由騰訊 AI Lab 主導,與羅切斯特大學合作完成,提出了一種無監(jiān)督圖像描述生成模型。深度神經網絡模型在圖像描述任務上取得了巨大的成功。但是大多數(shù)現(xiàn)有的圖像描述模型都依賴圖像-句子對,而這種圖像-句子對的收集過程又成本高昂。本文首次嘗試用無監(jiān)督的方式來訓練圖像描述模型。
我們提出的方法僅需要一個圖片集、一個句子集和一個已有的檢測模型。我們用句子集來讓圖像描述模型學習如何生成通順的句子,同時我們把檢測模型的知識蒸餾到圖像描述模型當中,從而使得后者可以識別圖像內容。為了讓圖像和生成的描述更加相關,我們把圖像和描述語句投影到了同一個語義空間。因為已有的句子集主要是為語言研究設計的,它們涉及的圖像內容不多,并不適合用于無監(jiān)督圖像描述研究。所以我們從網上下載了二百萬個圖像描述用于此項研究。實驗表明我們提出的模型可以在沒有使用任何標注句子的情況下,生成合理的圖片描述。
圖像分割
Image Segmentation
圖像分割是指將圖像細分為多個圖像子區(qū)域(像素的集合)的過程,可簡化或改變圖像的表示形式,使得圖像更容易理解和分析。圖像分割可用于定位圖像中的物體和邊界,這在移動機器人和自動駕駛等需要對目標的范圍有精確判定的應用中具有非常重要的價值。圖像分割方面的難題包括如何設定不同的分割層次、分析不常見目標的形狀、不同視角與深度的場景、對遮擋情況的處理以及邊緣的精確認定等等。
騰訊AI Lab 有多篇 CVPR 入選論文在圖像和視頻分割上做出了有價值的貢獻。除了前文用于視頻對象分割的 MHP-VOS,我們還提出了一種不依賴于物體檢測的人體實例分割方法,并為之創(chuàng)造了一個新的數(shù)據集。另外,我們還探索了室內場景形義分割與人群計數(shù)問題。
1.Pose2Seg:不依賴于物體檢測的人體實例分割
Pose2Seg: Detection Free Human Instance Segmentation
本文由騰訊AI Lab、清華大學和卡迪夫大學合作完成,提出了一種不依賴于物體檢測的人體實例分割方法和一個新的數(shù)據集。目前主流的圖像實例分割方法大多需要首先從圖像中檢測物體的包圍框,然后從包圍框中分割目標對象。Mask R-CNN 等最新的一些工作將這兩個步驟合二為一。
但是很少有研究考慮到“人”這一類別的特殊性——“人”不僅可以通過包圍框定位實例,還可以通過骨骼姿態(tài)檢測來定位。同時,在一些嚴重遮擋的情況下,相比于包圍框,人體骨骼姿態(tài)可以更有效地區(qū)分不同的實例。
本文提出了一種全新的基于姿態(tài)的人體實例分割框架,可通過人體姿態(tài)檢測來分離實例。我們通過大量實驗證明了基于姿態(tài)的實例分割框架可以比最先進的基于包圍框的實例分割方法獲得更好的準確性,同時還可以更好地處理遮擋情況。
此外,由于目前很少有公開數(shù)據集包含大量的豐富標注的嚴重遮擋實例,使得遮擋問題很少被研究者注意到。在本文中我們還公開了一個新的數(shù)據集“Occluded Human (OCHuman)”。這個數(shù)據集包含4731張圖像,有8110個詳細標注的人體實例。標注信息包括包圍框、實例分割掩碼以及人體姿態(tài)關鍵點。全部人體實例都存在嚴重的互相遮擋,因此這個數(shù)據集是目前最有挑戰(zhàn)的數(shù)據集。通過這個數(shù)據集,我們希望強調遮擋問題的挑戰(zhàn)性,并推動在檢測以及分割中對遮擋問題的研究。
2.基于幾何感知知識蒸餾方法的室內場景形義分割
Geometry-Aware Distillation for Indoor Semantic Segmentation
本文由騰訊AI Lab與伊利諾伊大學香檳分校、香港城市大學合作完成,提出了一種新的室內場景語義分割方法。已有研究表明,聯(lián)合推理來自RGB-D域的2D外觀和3D信息有利于室內場景語義分割。然而,大多數(shù)現(xiàn)有方法需要精確的深度圖作為輸入來分割場景,這嚴重限制了它們的應用。
在本文中,我們提出通過提取幾何感知嵌入特征來聯(lián)合推斷語義和深度信息,以消除這種強約束,同時仍然利用有用的深度域信息。
此外,我們還提出了幾何感知傳播框架和多級跳過特征融合模塊,可使用這種學習嵌入來提高語義分割的質量。通過將單個任務預測網絡解耦為語義分割和幾何嵌入學習這兩個聯(lián)合任務,加上我們提出的信息傳播和特征融合架構,我們在若干公開的具有挑戰(zhàn)性的室內數(shù)據集上進行了實驗,結果表明我們的方法可以超過目前最先進的語義分割方法。
應用價值:
3.基于殘差回歸和形義先驗的人群計數(shù)
Residual Regression with Semantic Prior for Crowd Counting
本文由騰訊AI Lab主導,與香港城市大學合作完成。人群計數(shù)是一個很有挑戰(zhàn)性的問題。最近基于深度學習的方法雖然取得了一些進展,但是樣本之間的相關性帶來的知識還沒被全面挖掘。本文提出了利用殘差回歸來學習樣本之間的相關性。通過融入相關性,我們實現(xiàn)了人群計數(shù)性能的提升。我們也展示了怎樣如何有效地利用形義先驗來提升模型性能。另外我們還觀察到對抗損失可以用來提升預測的密度圖質量,繼而提升結果。實驗結果證明了我們方法的有效性和泛化能力。
機器學習和優(yōu)化方法
Machine Learning and Optimization Methods
基于卷積神經網絡的深度學習確實已經推動計算機視覺領域實現(xiàn)了巨大的進步,但這個方法還遠非完美,在少樣本學習、學習效率和泛化能力等問題上還有很多改進的空間。同時,人工智能研究界也在不斷探索新的機器學習方法以及為各種機器學習技術提供理論驗證和支持。
今年的 CVPR 上,我們入選的論文涵蓋單樣本學習、開放域學習、模型壓縮、多任務與自適應學習等多個研究方向,也在訓練方法等方面做出了一些理論研究貢獻——我們首次提出了一種全新的用于保證 Adam/RMSProp 的全局收斂性的充分條件,還提出了一種用于稀疏廣義特征值問題的分解算法。
1.為視覺環(huán)境構建動態(tài)樹結構的學習方法
Learning to Compose Dynamic Tree Structures for Visual Contexts
本文由騰訊AI Lab與新加坡南洋理工大學合作完成,是CVPR oral 展示論文之一。我們提出了一種動態(tài)樹構建方法,可將圖像中的物體放置到一個完整的視覺環(huán)境中。該方法有助于解決場景圖生成、視覺問答等視覺推理問題。
相比于現(xiàn)有的結構化物體表示方法,我們提出的視覺環(huán)境樹模型VCTree具有兩大優(yōu)點:1)二叉樹非常高效且具有很強的表示能力,可以學習物體之間內在的并行或層次關系(例如,“衣服”和“褲子”往往同時出現(xiàn),且它們都屬于人的一部分);2)不同圖像和任務的動態(tài)結構往往各有不同,我們的模型能捕獲這種變化,從而在物體之間傳遞依賴于具體圖像內容和任務的信息。
在構建VCTree時,我們設計了一種評分函數(shù)來計算每一對物體和給定任務的有效性,從而得到物體之間的評分矩陣。然后我們在該評分矩陣上構建最大生成樹,并進行二值化。隨后,我們采用雙向樹LSTM模型對VCTree進行編碼,并利用任務相關的模型進行解碼。我們開發(fā)了一種混合學習流程,將監(jiān)督學習和樹結構強化學習結合到了一起。我們在場景圖生成和視覺問答這兩個視覺推理任務上進行了充分的實驗,結果表明VCTree不僅在這兩個任務上優(yōu)于當前最佳方法,同時還能挖掘出可解釋的視覺環(huán)境。
2.基于五胞胎損失的步態(tài)聯(lián)合學習
Learning Joint Gait Representation via Quintuplet Loss Minimization
本文由騰訊AI Lab主導,與澳洲國立大學合作完成,是CVPR oral 展示論文之一。步態(tài)識別是指通過走路的模態(tài)來遠距離地識別一個人,這是視頻監(jiān)控領域一個重要問題?,F(xiàn)有的方法要么是通過單張步態(tài)圖來學習獨一的步態(tài)特征,要么是通過一對步態(tài)圖來學習不同的步態(tài)特征。有證據表明這兩種方法是互補的。
在本文中,我們提出了一種步態(tài)聯(lián)合學習的網絡,其融合了這兩種方法的優(yōu)勢。另外,我們還提出了一種“五胞胎損失”,通過該損失可以同時最小化類內差和最大化類間差。實驗結果表明我們提出的方法取得了當前的最佳性能,超過了現(xiàn)有的方法。
3.基于圖像變形元網絡模型的單樣本學習
Image Deformation Meta-Networks for One-Shot Learning
本文由騰訊AI Lab、復旦大學、卡耐基梅隆大學合作完成,是CVPR oral 展示論文之一。人類可以精確地識別和學習圖像,即使圖像缺少了一塊或與另一幅圖像相重疊。結合這種能力來合成包含新概念的變形實例可以幫助視覺識別系統(tǒng)完成更好的單樣本學習,即從一個或少數(shù)幾個示例中學習相應的視覺概念。
我們的主要觀點是:雖然變形的圖像可能在視覺上不真實,但它們仍然保有關鍵的形義信息,并且對相應的分類器決策邊界有很大貢獻。受到最近元學習進展的啟發(fā),我們將元學習者與圖像變形子網絡結合起來,進而產生額外的訓練樣例,并以端到端的方式同時優(yōu)化兩個模型。變形子網絡通過融合一對圖像來得到相應的變形圖像。在業(yè)界公認的單樣本學習的基準數(shù)據集上(即miniImageNet和ImageNet 1K Challenge),我們所提出的方法明顯優(yōu)于現(xiàn)有技術。
4.Adam 和 RMSProp 收斂的充分條件
A Sufficient Condition for Convergences of Adam and RMSProp
本文由騰訊AI Lab主導,與石溪大學合作完成,是CVPR oral 展示論文之一。Adam/RMSProp作為用于訓練深度神經網絡的兩種最有影響力的自適應隨機算法,已經從理論上被證明是發(fā)散的。針對這一問題,目前的作法是通過對 Adam/RMSProp 的算法結構進行修改來促進Adam/RMSProp 及其變體收斂。常用的策略包括:降低自適應學習速率、采用大的batch-size、減少學習率與梯度的相關性。
在本文中,我們首次提出了一種全新的充分條件來保證 Adam/RMSProp的全局收斂性。該充分條件僅取決于基本學習速率參數(shù)和歷史二階矩的線性組合參數(shù), 并且無需對 Adam/RMSProp 算法結構做任何修改。根據文中提出的充分條件,我們的結論直接暗含 Adam 的幾個變體(AdamNC、AdaEMA等)的收斂性。
另外,我們嚴格說明 Adam 可以等價地表述為具有指數(shù)移動平均動量的 Weighted AdaGrad,從而為理解 Adam/RMSProp 提供了新的視角。結合這種觀察結果與文中提出的充分條件,我們更深入地解釋了Adam/RMSProp 發(fā)散的本質原因。最后,我們實驗了應用 Adam/RMSProp 來解決反例和訓練深度神經網絡,從而對本文提出的充分條件進行了驗證。結果表明,數(shù)值結果與理論分析完全一致。
雷鋒網雷鋒網雷鋒網
Ps:想要了解更多頂會動態(tài)?那就點擊鏈接加入CVPR頂會交流小組吧
https://ai.yanxishe.com/page/meeting/44%EF%BC%9F=leifeng
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。