0
本文作者: 汪思穎 | 2019-03-07 18:54 | 專題:CVPR 2019 |
雷鋒網(wǎng) AI 科技評論消息,CVPR 2019 即將于 6 月在美國長灘召開。今年有超過 5165 篇的大會論文投稿,最終錄取 1299 篇。此次,騰訊公司有超過 58 篇論文被本屆 CVPR 接收,其中騰訊優(yōu)圖實驗室 25 篇、騰訊 AI Lab 33 篇,以下便是對騰訊優(yōu)圖實驗室 25 篇被錄用論文的詳細介紹。
1. Unsupervised Person Re-identification by Soft Multilabel Learning
軟多標簽學習的無監(jiān)督行人重識別
相對于有監(jiān)督行人重識別(RE-ID)方法,無監(jiān)督 RE-ID 因其更佳的可擴展性受到越來越多的研究關注,然而在非交疊的多相機視圖下,標簽對(pairwise label)的缺失導致學習鑒別性的信息仍然是非常具有挑戰(zhàn)性的工作。為了克服這個問題,我們提出了一個用于無監(jiān)督 RE-ID 的軟多標簽學習深度模型。該想法通過將未標注的人與輔助域里的一組已知參考者進行比較,為未標注者標記軟標簽(類似實值標簽的似然向量)。 基于視覺特征以及未標注目標對的軟性標簽的相似度一致性,我們提出了軟多標簽引導的 hard negative mining 方法去學習一種區(qū)分性嵌入表示(discriminative embedding)。由于大多數(shù)目標對來自交叉視角,我們提出了交叉視角下的軟性多標簽一致性學習方法,以保證不同視角下標簽的一致性。為實現(xiàn)高效的軟標簽學習,引入了參考代理學習(reference agent learning)。我們的方法在 Market-1501 和 DukeMTMC-reID 上進行了評估,顯著優(yōu)于當前最好的無監(jiān)督 RE-ID 方法。
2. Visual Tracking via Adaptive Spatially-Regularized Correlation Filters
基于自適應空間加權相關濾波的視覺跟蹤研究
本文提出自適應空間約束相關濾波算法來同時優(yōu)化濾波器權重及空間約束矩陣。首先,本文所提出的自適應空間約束機制可以高效地學習得到一個空間權重以適應目標外觀變化,因此可以得到更加魯棒的目標跟蹤結果。其次,本文提出的算法可以通過交替迭代算法來高效進行求解,基于此,每個子問題都可以得到閉合的解形式。再次,本文所提出的跟蹤器使用兩種相關濾波模型來分別估計目標的位置及尺度,可以在得到較高定位精度的同時有效減少計算量。大量的在綜合數(shù)據(jù)集上的實驗結果證明了本文所提出的算法可以與現(xiàn)有的先進算法取得相當?shù)母櫧Y果,并且達到了實時的跟蹤速度。
3. Adversarial Attacks Beyond the Image Space
超越圖像空間的對抗攻擊
生成對抗實例是理解深度神經(jīng)網(wǎng)絡工作機理的重要途徑。大多數(shù)現(xiàn)有的方法都會在圖像空間中產(chǎn)生擾動,即獨立修改圖像中的每個像素。在本文中,我們更為關注與三維物理性質(如旋轉和平移、照明條件等)有意義的變化相對應的對抗性示例子集??梢哉f,這些對抗方法提出了一個更值得關注的問題,因為他們證明簡單地干擾現(xiàn)實世界中的三維物體和場景也有可能導致神經(jīng)網(wǎng)絡錯分實例。
在分類和視覺問答問題的任務中,我們在接收 2D 輸入的神經(jīng)網(wǎng)絡前邊增加一個渲染模塊來拓展現(xiàn)有的神經(jīng)網(wǎng)絡。我們的方法的流程是:先將 3D 場景(物理空間)渲染成 2D 圖片(圖片空間),然后經(jīng)過神經(jīng)網(wǎng)絡把他們映射到一個預測值(輸出空間)。這種對抗性干擾方法可以超越圖像空間。在三維物理世界中有明確的意義。雖然圖像空間的對抗攻擊可以根據(jù)像素反照率的變化來解釋,但是我們證實它們不能在物理空間給出很好的解釋,這樣通常會具有非局部效應。但是在物理空間的攻擊是有可能超過圖像空間的攻擊的,雖然這個比圖像空間的攻擊更難,體現(xiàn)在物理世界的攻擊有更低的成功率和需要更大的干擾。
4. Learning Context Graph for Person Search
基于上下文圖網(wǎng)絡的行人檢索模型
本文由騰訊優(yōu)圖實驗室與上海交通大學主導完成。
近年來,深度神經(jīng)網(wǎng)絡在行人檢索任務中取得了較大的成功。但是這些方法往往只基于單人的外觀信息,其在處理跨攝像頭下行人外觀出現(xiàn)姿態(tài)變化、光照變化、遮擋等情況時仍然比較困難。本文提出了一種新的基于上下文信息的行人檢索模型。所提出的模型將場景中同時出現(xiàn)的其他行人作為上下文信息,并使用卷積圖模型建模這些上下文信息對目標行人的影響。我們在兩個著名的行人檢索數(shù)據(jù)集 CUHK-SYSU 和 PRW 的兩個評測維度上刷新了當時的世界紀錄,取得了 top1 的行人檢索結果。
5. Underexposed Photo Enhancement using Deep Illumination Estimation
基于深度學習優(yōu)化光照的暗光下的圖像增強
本文介紹了一種新的端到端網(wǎng)絡,用于增強曝光不足的照片。我們不是像以前的工作那樣直接學習圖像到圖像的映射,而是在我們的網(wǎng)絡中引入中間照明,將輸入與預期的增強結果相關聯(lián),這增強了網(wǎng)絡從專家修飾的輸入/輸出圖像學習復雜的攝影調整的能力?;谠撃P停覀冎贫艘粋€損失函數(shù),該函數(shù)采用約束和先驗在中間的照明上,我們準備了一個 3000 個曝光不足的圖像對的新數(shù)據(jù)集,并訓練網(wǎng)絡有效地學習各種照明條件的豐富多樣的調整。通過這些方式,我們的網(wǎng)絡能夠在增強結果中恢復清晰的細節(jié),鮮明的對比度和自然色彩。我們對基準 MIT-Adobe FiveK 數(shù)據(jù)集和我們的新數(shù)據(jù)集進行了大量實驗,并表明我們的網(wǎng)絡可以有效地處理以前的困難圖像。
6. Homomorphic Latent Space Interpolation for Unpaired Image-to-image Translation
基于同態(tài)隱空間插值的不成對圖片到圖片轉換
生成對抗網(wǎng)絡在不成對的圖像到圖像轉換中取得了巨大成功。循環(huán)一致性允許對沒有配對數(shù)據(jù)的兩個不同域之間的關系建模。在本文中,我們提出了一個替代框架,作為潛在空間插值的擴展,在圖像轉換中考慮兩個域之間的中間部分。該框架基于以下事實:在平坦且光滑的潛在空間中,存在連接兩個采樣點的多條路徑。正確選擇插值的路徑允許更改某些圖像屬性,而這對于在兩個域之間生成中間圖像是非常有用的。我們還表明該框架可以應用于多域和多模態(tài)轉換。廣泛的實驗表明該框架對各種任務具有普遍性和適用性。
7. X2CT-GAN: Reconstructing CT from Biplanar X-Rays with Generative Adversarial Networks
基于生成對抗網(wǎng)絡的雙平面 X 光至 CT 生成系統(tǒng)
當下 CT 成像可以提供三維全景視角幫助醫(yī)生了解病人體內(nèi)的組織器官的情況,來協(xié)助疾病的診斷。但是 CT 成像與 X 光成像相比,給病人帶來的輻射劑量較大,并且費用成本較高。 傳統(tǒng) CT 影像的三維重建過程中圍繞物體中心旋轉采集并使用了大量的 X 光投影,這在傳統(tǒng)的 X 光機中也是不能實現(xiàn)的。在這篇文章中,我們創(chuàng)新性的提出了一種基于對抗生成網(wǎng)絡的方法,只使用兩張正交的二維 X 光圖片來重建逼真的三維 CT 影像。核心的創(chuàng)新點包括增維生成網(wǎng)絡,多視角特征融合算法等。我們通過實驗與量化分析,展示了該方法在二維 X 光到三維 CT 重建上大大優(yōu)于其他對比方法。通過可視化 CT 重建結果,我們也可以直觀的看到該方法提供的細節(jié)更加逼真。在實際應用中, 我們的方法在不改變現(xiàn)有 X 光成像流程的前提下,可以給醫(yī)生提供額外的類 CT 的三維影像,來協(xié)助他們更好的診斷。
8. Semantic Regeneration Network
語義再生網(wǎng)絡
本文研究了使用深度生成模型推斷視覺上下文的基本問題,即利用合理的結構和細節(jié)擴展圖像邊界。這個看似簡單的任務實際上面臨著許多關鍵的技術挑戰(zhàn),并且具有其獨特的性質。任務里兩個主要問題是擴展尺寸和單面約束。我們提出了一個具有多個特殊貢獻的語義再生網(wǎng)絡,并使用多個空間相關的損失來解決這些問題。本文最終的實驗結果包含了高度一致的結構和高品質的紋理。我們對各種可能的替代方案和相關方法進行了廣泛的實驗。最后,我們也探索了我們的方法對各種有趣應用的潛力,這些應用可以使各個領域的研究受益。
9. Towards Accurate One-Stage Object Detection with AP-Loss
利用 AP 損失函數(shù)實現(xiàn)精確的一階目標檢測
一階的目標檢測器通常是通過同時優(yōu)化分類損失函數(shù)和定位損失函數(shù)來訓練。而由于存在大量的錨框,分類損失函數(shù)的效果會嚴重受限于前景-背景類的不平衡。本文通過提出一種新的訓練框架來解決這個問題。我們使用排序任務替換一階目標檢測器中的分類任務,并使用排序問題的中的評價指標 AP 來作為損失函數(shù)。由于其非連續(xù)和非凸,AP 損失函數(shù)不能直接通過梯度下降優(yōu)化。為此,我們提出了一種新穎的優(yōu)化算法,它將感知機學習中的誤差驅動更新方案和深度網(wǎng)絡中的反向傳播算法結合在一起。我們從理論上和經(jīng)驗上驗證了提出的算法的良好收斂性。實驗結果表明,在不改變網(wǎng)絡架構的情況下,在各種數(shù)據(jù)集和現(xiàn)有最出色的一階目標檢測器上,AP 損失函數(shù)的性能相比不同類別的分類損失函數(shù)有著顯著提高。
10. Amodal Instance Segmentation through KINS Dataset
通過 KINS 數(shù)據(jù)集進行透視實例分割
透視實例分割是實例分割的一個新方向,旨在模仿人類的能力對每個對象實例進行分割包括其不可見被遮擋的部分。此任務需要推理對象的復雜結構。盡管重要且具有未來感,但由于難以正確且一致地標記不可見部分,這項任務缺乏大規(guī)模和詳細注釋的數(shù)據(jù),這為探索視覺識別的前沿創(chuàng)造了巨大的障礙。在本文中,我們使用 8 個類別的更多實例像素級注釋來擴充 KITTI,我們稱之為 KITTI INStance 數(shù)據(jù)集(KINS)。我們提出了通過具有多分支編碼(MBC)的新多任務框架來推理不可見部分的網(wǎng)絡結構,該框架將各種識別級別的信息組合在一起。大量實驗表明,我們的 MBC 有效地同時改善透視和非透視分割。 KINS 數(shù)據(jù)集和我們提出的方法將公開發(fā)布。
11. Pyramidal Person Re-IDentification via Multi-Loss Dynamic Training
基于多損失動態(tài)訓練策略的金字塔式行人重識別
大多數(shù)已提出的行人重識別方法高度依賴于精準的人體檢測以保證目標間的相互對齊。然而在復雜的實際場景中,現(xiàn)有模型尚難以保證檢測的精準性,不可避免地影響了行人重識別的性能。在本文中,我們提出了一種新的由粗及細的金字塔模型,以放寬對檢測框的精度限制,金字塔模型整合了局部、全局以及中間的過渡信息,能夠在不同尺度下進行有效匹配,即便是在目標對齊不佳情況下。此外,為了學習具有判別性的身份表征,我們提出了一種動態(tài)訓練框架,以無縫地協(xié)調兩種損失函數(shù)并提取適當?shù)男畔?。我們在三個數(shù)據(jù)庫上達到了最好的效果。值得一提的,在最具挑戰(zhàn)性的 CUHK03 數(shù)據(jù)集上超過當前最佳方法 9.5個百分點。
12. Dynamic Scene Deblurring with Parameter Selective Sharing and Nested Skip Connections
基于選擇性參數(shù)共享和嵌套跳躍連接的圖像去模糊算法
動態(tài)場景去模糊是一個具有挑戰(zhàn)的底層視覺問題因為每個像素的模糊是多因素共同導致,包括相機運動和物體運動。最近基于深度卷積網(wǎng)絡的方法在這個問題上取得了很大的提高。相對于參數(shù)獨立策略和參數(shù)共享策略,我們分析了網(wǎng)絡參數(shù)的策略并提出了一種選擇性參數(shù)共享的方案。在每個尺度的子網(wǎng)絡內(nèi),我們?yōu)榉蔷€性變換的模塊提出了一種嵌套跳躍連接的結構。此外,我們依照模糊數(shù)據(jù)生成的方法建立了一個更大的數(shù)據(jù)集并訓練出效果更佳的去模糊網(wǎng)絡。實驗表明我們的選擇性參數(shù)共享,嵌套跳躍鏈接,和新數(shù)據(jù)集都可以提高效果,并達到最佳的去模糊效果。
13. Learning Shape-Aware Embedding for Scene Text Detection
一種基于實例分割以及嵌入特征的文本檢測方法
由于復雜多變的場景,自然場景下的任意形狀文本的檢測十分具有挑戰(zhàn)性,本文主要針對檢測任意形狀的文本提出了解決方案。具體地,我們將文本檢測視作一個實例分割問題并且提出了一個基于分割的框架,該框架使用相互獨立的連通域來表示不同的文本實例。為了區(qū)分不同文本實例,我們的方法將圖片像素映射至嵌入特征空間當中,屬于同一文本實例的像素在嵌入特征空間中會更加接近彼此,反之屬于不同文本實例的像素將會遠離彼此。除此之外,我們提出的 Shape-Aware 損失可以使得模型能夠自適應地去根據(jù)文本實例復雜多樣的長寬比以及實例間的狹小縫隙來調整訓練,同時加以我們提出的全新后處理算法,我們的方法能夠產(chǎn)生精準的預測。我們的實驗結果在三個具有挑戰(zhàn)性的數(shù)據(jù)集上(ICDAR15、 MSRA-TD500 以及 CTW1500)驗證了我們工作的有效性。
14. PointWeb: Enhancing Local Neighborhood Features for Point Cloud Processing
PointWeb: 通過局部近鄰特征增強點云處理
本文提出一種新的在局部近鄰點云中提取上下文特征的方法: PointWeb。與之前的方法不同,為了明確每個基于局部區(qū)域特性的點特征,我們密集地連接在局部近鄰里的所有點,這樣可以更好地表征該區(qū)域。我們提出了“自適應特征調整”模塊(AFA),計算兩點之間的相互作用。對于每個局部區(qū)域,通過特征差分圖計算點對之間對應每個元素影響程度的“影響圖”。根據(jù)自適應學習到的影響因子,每個特征都會被相同區(qū)域內(nèi)的其他特征“推開”或“拉近”。調整過的特征圖更好地編碼區(qū)域信息,類似點云分割和分類的點云識別任務,將從中受益。實驗結果表明我們的模型在語義分割和形狀分類數(shù)據(jù)集上,超出當前最優(yōu)的算法。代碼和訓練好的模型將同論文一起發(fā)布。
15. Associatively Segmenting Instances and Semantics in Point Clouds
聯(lián)合分割點云中的實例和語義
一個 3D 點云精細和直觀的描述了一個真實場景。但是迄今為止怎樣在這樣一個信息豐富的三維場景分割多樣化的元素,仍然很少得到討論。在本文中,我們首先引入一個簡單且靈活的框架來同時分割點云中的實例和語義。進一步地,我們提出兩種方法讓兩個任務從彼此中受益,得到雙贏的性能提升。具體來說,我們通過學習富有語義感知的實例嵌入向量來使實例分割受益于語義分割。同時,將屬于同一個實例的點的語義特征融合在一起,從而更準確地對每個點進行語義預測。我們的方法大幅超過目前最先進的 3D 實例分割方法,在 3D 語義分割上也有顯著提升。
代碼和模型已經(jīng)開源:https://github.com/WXinlong/ASIS
16. Cyclic Guidance for Weakly Supervised Joint Detection and Segmentation
基于循環(huán)指導的弱監(jiān)督聯(lián)合檢測和分割
本文由騰訊優(yōu)圖實驗室與廈門大學紀榮嶸教授團隊主導完成。
我們首次提出使用多任務學習機制聯(lián)合弱監(jiān)督檢測和分割任務,并基于兩個任務各自的互補失敗模式來改進對方。這種交叉任務的增強使得兩個任務更能逃離局部最小值。我們的方法 WS-JDS 有兩個分支并共享同一個骨干模型,分別對應兩個任務。在學習過程中,我們提出循環(huán)指導范式和特地的損失函數(shù)來改進雙方。 實驗結果表明該算法取得了的性能提升。
17. ROI Pooled Correlation Filters for Visual Tracking
基于感興趣區(qū)域池化的相關濾波跟蹤研究
基于 ROI 的池化算法在樣本被提取的感興趣區(qū)域進行池化操作,并已經(jīng)在目標檢測等領域取得了較大的成功。該池化算法可以較好的壓縮模型的尺寸,并且保留原有模型的定位精度,因此非常適合視覺跟蹤領域。盡管基于 ROI 的池化操作已經(jīng)被不同領域證明了其有效性,其在相關濾波領域仍然沒有得到很好的應用?;诖耍疚奶岢隽诵路f的具有 ROI 池化功能的相關濾波算法進行魯棒的目標跟蹤。通過嚴謹?shù)臄?shù)學推導,我們證明了相關濾波中的 ROI 池化可以通過在學習到的濾波器上引入附加的約束來等效實現(xiàn),這樣就使得我們可以在不必明確提取出訓練樣本的情況下完成池化操作。我們提出了一個高效的相關濾波算法,并給出了基于傅立葉的目標函數(shù)求解算法。我們在 OTB-2013、 OTB-2015 及 VOT-2017 上對所提出的算法進行測試,大量的實驗結果證明了本文所提出算法的有效性。
18. Exploiting Kernel Sparsity and Entropy for Interpretable CNN Compression
基于卷積核稀疏性與密度熵的神經(jīng)網(wǎng)絡壓縮方法
本文由騰訊優(yōu)圖實驗室與廈門大學紀榮嶸教授團隊主導完成。
我們從神經(jīng)網(wǎng)絡的解釋性角度出發(fā),分析卷積神經(jīng)網(wǎng)絡特征圖的冗余性問題,發(fā)現(xiàn)特征圖的重要性取決于它的稀疏性和信息豐富度。但直接計算特征圖的稀疏性與信息豐富度,需要巨大計算開銷。為克服此問題,我們建立了特征圖和其對應二維卷積核之間的聯(lián)系,通過卷積核的稀疏性和密度熵來表征對應特征圖的重要程度,并得到判定特征圖重要性的得分函數(shù)。在此基礎上,我們采用較為細粒度壓縮的卷積核聚類代替?zhèn)鹘y(tǒng)的剪枝方式壓縮模型。大量的實驗結果表明,我們所提出的基于卷積核稀疏性與密度熵的壓縮方法可以達到更高的壓縮率和精度。
19. MMFace: A Multi-Metric Regression Network for Unconstrained Face Reconstruction
MMFace: 用于無約束三維人臉重建的多度量回歸網(wǎng)絡
本文提出了一個用于進行無約束三維人臉重建的多度量回歸網(wǎng)絡。其核心思想是利用一個體素回歸子網(wǎng)絡從輸入圖像生成一個人臉幾何結構的中間表達,再從該中間表達回歸出對應的三維人臉形變模型參數(shù)。我們從包括人臉身份、表情、頭部姿態(tài),以及體素等多個度量對回歸結果進行了約束,使得我們的算法在夸張的表情,大頭部姿態(tài)、局部遮擋、復雜光照環(huán)境都有很好的魯棒性。相比于目前的主流算法,我們的方法在公開的三維人臉數(shù)據(jù)集 LS3D-W 和 Florence 上都得到了顯著的提升。此外,我們的方法還直接應用到對視頻序列的處理。
20. Towards Optimal Structured CNN Pruning via Generative Adversarial Learning
基于生成對抗學習的最優(yōu)結構化卷積神經(jīng)網(wǎng)絡剪枝方法
本文由騰訊優(yōu)圖實驗室與廈門大學紀榮嶸教授團隊主導完成。
我們提出了一種基于生成對抗學習的最優(yōu)結構化網(wǎng)絡剪枝方法,利用無監(jiān)督端對端訓練剪枝網(wǎng)絡中冗余的異質結構,有效解決了傳統(tǒng)結構化剪枝方法存在剪枝效率低、缺乏松弛性、強標簽依賴等問題。該方法對每個模型結構引入了軟掩碼,并對其加入稀疏限制,使其表征每個結構的冗余性。為了更好學習模型參數(shù)和掩碼,我們利用無類別標簽生成對抗學習框架,構建新的結構化剪枝目標函數(shù),并利用快速的迭代閾值收縮算法解決該優(yōu)化問題,穩(wěn)定移除冗余結構。通過大量的實驗結果表明,相比于目前最先進的結構化剪枝方法,我們所提出的剪枝方法可以獲得更好的性能。
21. Semantic Component Decomposition for Face Attribute Manipulation
基于語義成分分解的人臉屬性編輯
最近,基于深度神經(jīng)網(wǎng)絡的方法已被廣泛研究用于面部屬性編輯。然而,仍然存在兩個主要問題,即視覺質量不佳以及結果難以由用戶控制。這限制了現(xiàn)有方法的適用性,因為用戶可能對不同的面部屬性具有不同的編輯偏好。在本文中,我們通過提出一個基于語義組件的模型來解決這些問題。該模型將面部屬性分解為多個語義成分,每個語義成分對應于特定的面部區(qū)域。這不僅允許用戶基于他們的偏好來控制不同部分的編輯強度,而且還使得有效去除不想要的編輯效果。此外,每個語義組件由兩個基本元素組成,它們分別確定編輯效果和編輯區(qū)域。此屬性允許我們進行更細粒度的交互式控制。實驗表明,我們的模型不僅可以產(chǎn)生高質量的結果,還可以實現(xiàn)有效的用戶交互。
22. Memory-Attended Recurrent Network for Video Captioning
一種針對視頻描述的基于記憶機制的循環(huán)神經(jīng)網(wǎng)絡
傳統(tǒng)的視頻描述生成的模型遵循編碼-解碼 (encoder-decoder) 的框架,對輸入的視頻先進行視頻編碼,然后解碼生成相應的視頻描述。這類方法的局限在于僅能關注到當前正在處理的一段視頻。而在實際案例中,一個詞或者短語可以同時出現(xiàn)在不同但語義相似的視頻中,所以基于編碼-解碼的方法不能同時抓取一個詞在多個相關視頻中的上下文語義信息。為了解決這個局限性,我們提出了一種基于記憶機制的循環(huán)神經(jīng)網(wǎng)絡模型,設計了一種獨特的記憶結構來抓取每個詞庫中的詞與其所有相關視頻中的對應語義信息。因此,我們的模型可以對每個詞的語義有更全面和深入的理解,從而提高生成的視頻描述的質量。另外,我們設計的記憶結構能夠評估相鄰詞之間的連貫性。充足的實驗證明我們的模型比現(xiàn)有的其他模型生成的視頻描述質量更高。
23. Distilled Person Re-identification: Towards a More Scalable System
蒸餾的行人重識別:邁向更具可擴展性的系統(tǒng)
行人重識別(Re-ID),作為面向非交疊相機視角下的行人比對技術,在具備豐富標簽數(shù)據(jù)下有監(jiān)督學習領域的研究已取得了長足的進步。 然而可擴展性問題仍然是系統(tǒng)走向大規(guī)模應用的瓶頸。我們從三個方面考慮 Re-ID 的可擴展性問題:(1)減少標簽規(guī)模來降低標注成本,(2)復用已有知識來降低遷移成本(3)使用輕量模型來降低預測成本。為解決這些問題,我們提出了一種多教師自適應的相似度蒸餾框架,僅需要少量有標注的目標域身份,即可將多種教師模型中的知識遷移到訂制的輕量級學生模型,而無需利用源域數(shù)據(jù)。為有效選擇教師模型,完成知識遷移,我們提出了 Log-Euclidean 的相似度蒸餾損失函數(shù),并進一步整合了 Adaptive Knowledge Aggregator。 大量的實驗評估結果論證了方法的可擴展
性,在性能上可與當前最好的無監(jiān)督和半監(jiān)督 Re-ID 方法相媲美。
24. DSFD: Dual Shot Face Detector
雙分支人臉檢測器
本文由南京理工大學計算機科學與工程學院 PCALab 與騰訊優(yōu)圖實驗室合作完成。
近年來,卷積神經(jīng)網(wǎng)絡在人臉檢測中取得了很大的成功。然而這些方法在處理人臉中多變的尺度,姿態(tài),遮擋,表情,光照等問題時依然比較困難。本文提出了一種新的方法,分別處理了人臉檢測方向的三個關鍵點,包括更好的特征學習,漸進式的損失函數(shù)設計以及基于錨點分配的數(shù)據(jù)擴充。首先,我們提出了一種特征增強單元,以增強特征能力的方式將單分支擴展到雙分支結構。其次,我們采用漸進式的錨點損失函數(shù),通過給雙分支不同尺度的錨點集更有效地促進特征學習。最后,我們使用了一種改進的錨點匹配方法,為回歸器提供了更好的初始化數(shù)據(jù)。由于上述技術都與雙分支的設計相關,我們將本文方法命名為雙分支人臉檢測器。我們在兩個著名的人臉檢測數(shù)據(jù)集 WIDER FACE 和 FDDB 的 5 個評測維度上均刷新了當時的世界紀錄,取得了 Top1 的人臉檢測結果。
25. 3D Motion Decomposition for RGBD Future Dynamic Scene Synthesis
基于 3D 運動分解合成 RGBD 未來動態(tài)場景
視頻中未來時刻的幀,是由相機自身運動和場景中物體運動后的 3D 場景投影到 2D 形成的。因此,從根本上說,精確預測視頻未來的變化,需要理解場景的 3D 運動和幾何特性。在這篇文章中,我們提出了通過 3D 運動分解來實現(xiàn)的 RGBD 場景預測模型。我們首先預測相機運動和前景物體運動,它們共同用來生成 3D 未來場景,然后投影到 2D 相機平面來合成未來的運動、 RGB 圖像和深度圖。我們也可以把語義分割信息融入系統(tǒng),以預測未來時刻的語義圖。我們在 KITTI 和 Driving 上的結果說明,我們的方法超過了當前最優(yōu)的預測RGBD 未來場景的方法
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。