0
雷鋒網(wǎng) AI 科技評(píng)論按:本文由商湯科技獨(dú)家投稿,AI 科技評(píng)論獲其授權(quán)轉(zhuǎn)載。
全球計(jì)算機(jī)視覺頂級(jí)會(huì)議 IEEE CVPR 2018 (Computer Vision and Pattern Recognition,即 IEEE 國(guó)際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議) 即將于六月在美國(guó)鹽湖城召開,本屆大會(huì)總共錄取來(lái)自全球論文 979 篇。CVPR 作為計(jì)算機(jī)視覺領(lǐng)域級(jí)別最高的研究會(huì)議,其錄取論文代表了計(jì)算機(jī)視覺領(lǐng)域在 2018 年最新和最高的科技水平以及未來(lái)發(fā)展潮流。
CVPR 官網(wǎng)顯示,今年有超過(guò) 3300 篇的大會(huì)論文投稿,錄取的 979 篇論文,比去年增長(zhǎng)了 25%(2017 年論文錄取 783 篇)。這些錄取的最新科研成果,涵蓋了計(jì)算機(jī)視覺領(lǐng)域各項(xiàng)前沿工作。CVPR 2018 包括 21 場(chǎng) tutorials、48 場(chǎng) workshops,并且有來(lái)自全球各地超過(guò) 115 家企業(yè)將入駐今年 CVPR 工業(yè)展覽。
商湯科技、香港中文大學(xué)-商湯科技聯(lián)合實(shí)驗(yàn)室以及其他商湯科技聯(lián)合實(shí)驗(yàn)室共有 44 篇論文被本屆 CVPR 大會(huì)接收,其中包括口頭報(bào)告論文 3 篇(錄取率僅 62/3300 = 1.88%),亮點(diǎn)報(bào)告論文 13 篇,論文錄取數(shù)量相較于 CVPR 2017 的 23 篇又有大幅度提高,成績(jī)斐然。全球領(lǐng)先的科研成果展示了商湯科技智能視覺領(lǐng)域強(qiáng)大的人才儲(chǔ)備、科研底蘊(yùn)和創(chuàng)新能力。
商湯科技 CVPR 2018 錄取論文在以下領(lǐng)域?qū)崿F(xiàn)突破:大規(guī)模分布式訓(xùn)練、人體理解與行人再識(shí)別、自動(dòng)駕駛場(chǎng)景理解與分析、底層視覺算法、視覺與自然語(yǔ)言的綜合理解、物體檢測(cè)、識(shí)別與跟蹤、深度生成式模型、視頻與行為理解等。這些新穎的計(jì)算機(jī)視覺算法不僅有著豐富的應(yīng)用場(chǎng)景,使得更多的智能視覺算法能應(yīng)用于日常生活之中,還為后續(xù)研究提供了可貴的經(jīng)驗(yàn)和方向。
本文致力于解決深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的自動(dòng)設(shè)計(jì)問(wèn)題,與一般人工的結(jié)構(gòu)設(shè)計(jì)不同,本文提出了一種高效算法,通過(guò)強(qiáng)化學(xué)習(xí)來(lái)自動(dòng)設(shè)計(jì)最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)通常需要大量專家的知識(shí)和試錯(cuò)成本,并且甚至還需要一些靈感,每年僅有幾個(gè)重要的網(wǎng)絡(luò)結(jié)構(gòu)被設(shè)計(jì)出來(lái),因此,人工設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)是一個(gè)難度極高的工作。近期的網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)搜索的算法通常需要巨大的計(jì)算資源(數(shù)百塊 GPU,近一個(gè)月的訓(xùn)練),并且生產(chǎn)的模型可遷移性不強(qiáng),難以做到真正的實(shí)用化。
本文提出了一種基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)設(shè)計(jì)算法,通過(guò)「網(wǎng)絡(luò)塊」的設(shè)計(jì)思想,讓搜索空間大大降低,并且使設(shè)計(jì)的網(wǎng)絡(luò)具有非常強(qiáng)的可遷移性。同時(shí),本文使用「提前停止」和分布式架構(gòu)來(lái)加速整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)過(guò)程,達(dá)到了百倍于之前算法的速度(32 塊 GPU,3 天的訓(xùn)練)。實(shí)驗(yàn)表面,其生成的網(wǎng)絡(luò)結(jié)構(gòu)在 CIFAR 數(shù)據(jù)集上達(dá)到并且超越人類設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)的精度,并且其結(jié)構(gòu)可以遷移到大規(guī)模的 ImageNet 數(shù)據(jù)上,取得良好的性能。
行人再識(shí)別是新一代智能安防系統(tǒng)中的重要組件之一。給定一幅行人圖像,行人再識(shí)別要求跨不同攝像頭,對(duì)同一行人基于其視覺外觀進(jìn)行準(zhǔn)確匹配和識(shí)別?,F(xiàn)有深度學(xué)習(xí)算法通常使用過(guò)于局部的約束損失函數(shù)進(jìn)行行人特征學(xué)習(xí),因而不能精確的學(xué)習(xí)行人圖像之間的視覺相似度。本文針對(duì)該問(wèn)題提出一種新穎的組一致性約束條件,并通過(guò)連續(xù)條件隨機(jī)場(chǎng)對(duì)該約束條件進(jìn)行建模。將該連續(xù)條件隨機(jī)場(chǎng)加入深度神經(jīng)網(wǎng)絡(luò),從而實(shí)現(xiàn)該深度模型的端對(duì)端訓(xùn)練。實(shí)驗(yàn)結(jié)果表明該一致性條件在訓(xùn)練與測(cè)試中均能夠大幅度提升最終視覺特征的魯棒性與判別性,實(shí)現(xiàn)高精度的行人再識(shí)別。
本文關(guān)注面向自動(dòng)駕駛場(chǎng)景的視頻實(shí)時(shí)語(yǔ)義分割問(wèn)題,雖然近年來(lái)圖像語(yǔ)義分割取得很大的進(jìn)展,但是對(duì)于面向視頻的語(yǔ)義分割任務(wù)仍然存在挑戰(zhàn)。其主要困難在于:1)視頻需要更多的計(jì)算量;2)許多實(shí)時(shí)的應(yīng)用如自動(dòng)駕駛需要實(shí)現(xiàn)低延遲性。
本文致力于解決這兩方面的難題,同時(shí)盡可能的保證分割的精度。在視頻分割問(wèn)題中,鄰近幀之間的語(yǔ)義標(biāo)簽的變化相對(duì)較小,因此不必每幀都使用一個(gè)完整的網(wǎng)絡(luò)來(lái)提取語(yǔ)義標(biāo)簽?;谶@種認(rèn)識(shí),本文提出了一個(gè)如圖所示的語(yǔ)義分割的框架,把整個(gè)網(wǎng)絡(luò)分為高層部分和低層部分,低層部分消耗較少的計(jì)算;本文的框架只在關(guān)鍵幀運(yùn)行完整的網(wǎng)絡(luò)來(lái)提取高層特征進(jìn)行語(yǔ)義分割,而在其他幀則從上一個(gè)關(guān)鍵幀傳播特征來(lái)進(jìn)行語(yǔ)義分割。相應(yīng)的框架由兩部分組件構(gòu)成:1)關(guān)鍵幀調(diào)度模塊,以及 2)特征跨幀傳播模塊,其都基于低層特征進(jìn)行相應(yīng)的計(jì)算,因此相對(duì)完整的網(wǎng)絡(luò)計(jì)算量小很多。同時(shí)為了減少延遲,在檢測(cè)到當(dāng)前幀為關(guān)鍵幀時(shí),使用了一個(gè)低延遲的調(diào)度策略。本文提出的方法在兩個(gè)數(shù)據(jù)集上均驗(yàn)證了我們方法的有效性,取得了較低延遲并保持精確的分割精度。
面向自動(dòng)駕駛場(chǎng)景的單目深度估計(jì)方法,通常利用一個(gè)視角的圖像數(shù)據(jù)作為輸入,直接預(yù)測(cè)圖片中每個(gè)像素對(duì)應(yīng)的深度值,這就導(dǎo)致了現(xiàn)有方法通常需要大量的帶深度信息標(biāo)注的數(shù)據(jù)。近期的研究提出了在訓(xùn)練過(guò)程引入了幾何約束的改進(jìn),但是在測(cè)試過(guò)程仍然缺乏顯式的幾何約束。本文提出把單目深度估計(jì)分解為兩個(gè)子過(guò)程,即視圖合成過(guò)程以及雙目匹配過(guò)程,通過(guò)這樣分解之后,使得所提出的模型既可以在測(cè)試階段顯式地引入幾何約束又可以極大的減少對(duì)帶深度標(biāo)注數(shù)據(jù)的依賴。實(shí)驗(yàn)證明,本文提出的方法僅利用少量的深度數(shù)據(jù)就可以在 KITTI 數(shù)據(jù)集上超過(guò)之前的所有方法,并首次僅靠單目圖像數(shù)據(jù)就超過(guò)了雙目匹配算法 Block Matching,進(jìn)一步推動(dòng)了單目深度估計(jì)技術(shù)的落地。
本文提出了一種新穎的深度學(xué)習(xí)圖像復(fù)原方法。大部分已有復(fù)原算法僅面向解決某類特定的圖像復(fù)原問(wèn)題,因而對(duì)各種不同類別的降質(zhì)圖像缺乏普適性。針對(duì)該問(wèn)題,本文提出的 RL-Restore 算法先訓(xùn)練一系列針對(duì)不同降質(zhì)圖像的小型神經(jīng)網(wǎng)絡(luò);同時(shí)設(shè)計(jì)一種評(píng)價(jià)圖像復(fù)原質(zhì)量的獎(jiǎng)勵(lì)函數(shù),使用增強(qiáng)學(xué)習(xí)算法學(xué)習(xí)如何將這些小型神經(jīng)網(wǎng)絡(luò)進(jìn)行合理組合。針對(duì)不同的降質(zhì)圖像,獲得不同的復(fù)原算法組件的組合,實(shí)現(xiàn)對(duì)復(fù)雜降質(zhì)圖像的有效復(fù)原。
針對(duì)開放式視覺問(wèn)答(Open-ended VisualQuestion Answering)中訓(xùn)練數(shù)據(jù)過(guò)少的問(wèn)題,本文提出了一種「可逆問(wèn)答網(wǎng)絡(luò)」。該模型可以通過(guò)重組不同模塊,使一組模型同時(shí)完成「問(wèn)題回答」和「問(wèn)題生成」兩種互逆的兩個(gè)任務(wù)。該模型通過(guò)充分利用視覺問(wèn)答和視覺問(wèn)題生成的對(duì)偶性,提升模型對(duì)于有限訓(xùn)練數(shù)據(jù)的利用效率。該方法采用兩個(gè)任務(wù)同時(shí)訓(xùn)練同一模型,使網(wǎng)絡(luò)能夠?qū)?wèn)題和圖片之間的聯(lián)系有更深的理解,從而在問(wèn)題生成和問(wèn)題回答兩個(gè)任務(wù)上都取得了更好的精度和效果。
本文同時(shí)解決人臉識(shí)別、屬性分類和任意人臉生成這三個(gè)問(wèn)題。大多數(shù)人臉特征學(xué)習(xí)的工作通常能夠讓網(wǎng)絡(luò)學(xué)習(xí)得到一個(gè)具有極強(qiáng)身份或?qū)傩詤^(qū)分度的特征,以應(yīng)用于人臉識(shí)別、屬性分類等任務(wù);或者學(xué)習(xí)一個(gè)具有全局信息的特征,以應(yīng)用于人臉生成和編輯等應(yīng)用。為什么不能學(xué)習(xí)到一個(gè)完備的特征空間并使得語(yǔ)義信息高度區(qū)分化,進(jìn)而實(shí)現(xiàn)一個(gè)特征能夠完成所有的任務(wù)呢?本文提出了一個(gè)信息蒸餾與驅(qū)逐網(wǎng)絡(luò)的框架,只使用身份 ID 作為監(jiān)督信息,學(xué)習(xí)到了一個(gè)同時(shí)具有極強(qiáng)信息區(qū)分度且包含全局信息的稠密凸特征空間。在 LFW、LFWA 和 CelebA 等數(shù)據(jù)集上的實(shí)驗(yàn)表明,人臉在該特征空間下的投影具有極高的身份、屬性識(shí)別能力,且該空間內(nèi)的任意一個(gè)點(diǎn)均具有較強(qiáng)的身份和屬性語(yǔ)義,并可生成具有該語(yǔ)義的人臉圖像。
本文提出一種基于邊緣感知的人臉關(guān)鍵點(diǎn)檢測(cè)算法,將人臉邊緣線所描述的結(jié)構(gòu)信息融入到關(guān)鍵點(diǎn)檢測(cè)中,極大地提升了算法在大側(cè)臉、夸張表情、遮擋、模糊等極端情況下的檢測(cè)精度。文章主要解決了兩大問(wèn)題:1. 人臉關(guān)鍵點(diǎn)在各個(gè)數(shù)據(jù)集間歧義性,定義不一致問(wèn)題。文章通過(guò)捕捉對(duì)于人臉更通用的邊緣線信息,將其作為人臉到關(guān)鍵點(diǎn)的中間媒介,使得不同數(shù)據(jù)集即使存在關(guān)鍵點(diǎn)差異,仍然可以相互輔助訓(xùn)練。2. 復(fù)雜情況下關(guān)鍵點(diǎn)檢測(cè)精度問(wèn)題。本文首先通過(guò)消息傳遞結(jié)合對(duì)抗學(xué)習(xí)得到高精度的邊緣線檢測(cè)結(jié)果,再將邊緣線信息多語(yǔ)義層次地融合到關(guān)鍵點(diǎn)檢測(cè)中,使得算法在復(fù)雜情況下的魯棒性大幅提升。
另外,文章還提出了一個(gè)新的人臉關(guān)鍵點(diǎn)檢測(cè)數(shù)據(jù)集 Wider Facial Landmarksin-the-wild (WFLW),包含 10,000 張帶有 98 點(diǎn)和 6 屬性標(biāo)注的人臉數(shù)據(jù),旨在幫助學(xué)界更有效的評(píng)估關(guān)鍵點(diǎn)算法在各種條件下的魯棒性。
本文提出一種基于端到端深度學(xué)習(xí)框架的高性能單目標(biāo)跟蹤算法?,F(xiàn)有的單目標(biāo)跟蹤算法通常較難兼顧性能和速度,僅能在某一指標(biāo)占優(yōu)。本文利用孿生(Siamese)網(wǎng)絡(luò)和區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network),構(gòu)建了一種高速高精度的單目標(biāo)跟蹤算法。兩個(gè)子網(wǎng)絡(luò)通過(guò)卷積操作升維,統(tǒng)一在一個(gè)端到端的深度神經(jīng)網(wǎng)絡(luò)框架里。訓(xùn)練過(guò)程中,算法可以利用擁有密集標(biāo)注(VID)和稀疏標(biāo)注(YoutubeBB)的數(shù)據(jù)集進(jìn)行訓(xùn)練。相較于現(xiàn)有方法,稀疏標(biāo)注的數(shù)據(jù)集大大增加了訓(xùn)練數(shù)據(jù)來(lái)源,從而可以對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行更充分的訓(xùn)練;區(qū)域候選網(wǎng)絡(luò)中的坐標(biāo)回歸可以讓跟蹤框更加準(zhǔn)確,并且省去多尺度測(cè)試耗費(fèi)的時(shí)間。實(shí)驗(yàn)方面,本文提出的跟蹤算法能在 160 幀速度下達(dá)到 VOT2015 和 VOT2016 數(shù)據(jù)集上目前的先進(jìn)水平。
本文首次提出了端到端的多角度文字檢測(cè)與識(shí)別方法。文字檢測(cè)與識(shí)別 (OCR) 是計(jì)算機(jī)視覺領(lǐng)域的經(jīng)典問(wèn)題,過(guò)去的做法將文字檢測(cè)與識(shí)別看做兩個(gè)問(wèn)題分別解決。本文提出了一個(gè)端到端的方法同時(shí)進(jìn)行文字檢測(cè)與識(shí)別,驗(yàn)證了這兩個(gè)任務(wù)相輔相成,共同監(jiān)督網(wǎng)絡(luò)訓(xùn)練可以讓這兩個(gè)任務(wù)取得更好的精度。由于兩個(gè)任務(wù)共用一個(gè)特征提取的網(wǎng)絡(luò),速度也是分別進(jìn)行文字檢測(cè)與識(shí)別的兩倍左右。同時(shí)本文也提出了 RoIRotate 操作,其擴(kuò)展了 RoIAlign,可以應(yīng)用于旋轉(zhuǎn)物體的檢測(cè)。本文在多個(gè)數(shù)據(jù)集上超過(guò)了現(xiàn)有方法。
目前針對(duì)圖像風(fēng)格化的實(shí)時(shí)應(yīng)用,大多需要針對(duì)特定的風(fēng)格圖來(lái)設(shè)計(jì)特定的風(fēng)格遷移模型;如果需要實(shí)現(xiàn)對(duì)于任意風(fēng)格圖的遷移,計(jì)算復(fù)雜度和遷移效果大多不能得到保證。本文提出一種實(shí)時(shí)零點(diǎn)圖像風(fēng)格遷移模型,實(shí)現(xiàn)對(duì)于任意風(fēng)格圖像的多尺度高質(zhì)量風(fēng)格化遷移。該方法基于名為風(fēng)格裝飾器的特征遷移網(wǎng)絡(luò)結(jié)構(gòu),可以容易地嵌入圖像重構(gòu)網(wǎng)絡(luò)中來(lái)達(dá)到多尺度的風(fēng)格特征遷移。該網(wǎng)絡(luò)結(jié)構(gòu)使得生成的風(fēng)格化圖像充分表達(dá)風(fēng)格圖中的具體紋理模式,同時(shí)保留原圖中的語(yǔ)義信息。實(shí)驗(yàn)表明,該網(wǎng)絡(luò)對(duì)各種類別的風(fēng)格圖都有較高的風(fēng)格化能力,并且可以有效擴(kuò)展到多風(fēng)格遷移和視頻風(fēng)格遷移等應(yīng)用中。
商湯科技及商湯科技聯(lián)合實(shí)驗(yàn)室共有 44 篇論文被接收,具體如下:
1.3D Human Pose Estimation in the Wild by Adversarial Learning
Wei Yang, Wanli Ouyang, Xiaolong Wang, Xiaogang Wang
2. Attention-aware Compositional Network for Person Re-Identification
Jing Xu, Rui Zhao, Feng Zhu, Huaming Wang, Wanli Ouyang
3. Avatar-Net: Multi-scale Zero-shot Style Transfer by Feature Decoration
Lu Sheng*, Jing Shao*, Ziyi Lin and Xiaogang Wang (*equal contribution)
4. Beyond Holistic Object Recognition:Enriching Image Understanding with Part States
Cewu Lu, Hao Su, Yonglu Li, Yongyi Lu, Li Yi, Chi-Keung Tang, Leonidas J. Guibas
5. Collaborative and Adversarial Network for Unsupervised domain adaptation
Weichen Zhang, Wanli Ouyang, Dong Xu, Wen Li
6. Context Encoding for Semantic Segmentation
Hang Zhang, Kristin Dana, Jianping Shi, Zhongyue Zhang, Xiaogang Wang, Ambrish Tyagi, Amit Agrawal
7. Deep Cocktail Networks: Multi-source Unsupervised Domain Adaptation with Category Shift
Ruijia Xu, Ziliang Chen, Wangmeng Zuo, Junjie Yan, Liang Lin
8. Deep Group-shuffling Random Walk for Person Re-identification
Yantao Shen, Hongsheng Li, Tong Xiao, Shuai Yi, Dapeng Chen, Xiaogang Wang
9. Dynamic Scene Deblurring Using Spatially Variant Recurrent Neural Networks
Jiawei Zhang, Jinshan Pan, Jimmy Ren, Yibing Song, Linchao Bao, Rynson Lau, Ming-Hsuan Yang
10. Eliminating Background-bias for Robust Person Re-identification
Maoqing Tian, Hongsheng Li, Shuai Yi, Xuesen Zhang, Jianping Shi, Junjie Yan, Xiaogang Wang
11. End-to-End Deep Kronecker-Product Matching for Person Re-identification
Yantao Shen, Tong Xiao, Hongsheng Li, Shuai Yi, Xiaogang Wang
12. End-to-end Flow Correlation Tracking with Spatial-temporal Attention
Zheng Zhu, Wei Wu, Wei Zou, Junjie Yan
13. Exploring Disentangled Feature Representation Beyond Face Identification
Yu Liu*, Fangyin Wei*, Jing Shao*, LuSheng, Junjie Yan and Xiaogang Wang (*equal contribution)
14. Environment Upgrade Reinforcement Learning for Non-differentiable Multi-stage Pipelines
Shuqin Xie, Zitian Chen, Chao Xu, Cewu Lu
15. FOTS: Fast Oriented Text Spotting with a Unified Network
Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, Junjie Yan
16. GeoNet: Unsupervised Learning of Dense Depth, Motion Field and Camera Pose
Zhichao Yin, Jianping Shi
17. Group Consistent Similarity Learning via Deep CRFs for Person Re-Identification
Dapeng Chen, Dan Xu, Hongsheng Li, Nicu Sebe, Xiaogang Wang
18. High Performance Visual Tracking with Siamese Region Proposal Network
Bo Li, Wei Wu, Zheng Zhu, Junjie Yan
19. ID-GAN: Learning a Symmetry Three-Player GAN for Identity-Preserving Face Synthesis
Yujun Shen, Ping Luo, Junjie Yan, Xiaogang Wang, Xiaoou Tang
20. Learning a Toolchain for Image Restoration
Ke Yu, Chao Dong, Liang Lin, Chen Change Loy
21. Learning Dual Convolutional Neural Networks for Low-Level Vision
Jinshan Pan, Sifei Liu, Deqing Sun, Jiawei Zhang, Yang Liu, Jimmy Ren, Zechao Li, Jinhui Tang, Huchuan Lu, Yu-Wing Tai, Ming-Hsuan Yang
22. Learning Globally Optimized Object Detector via Policy Gradient
Yongming Rao, Dahua Lin, Jiwen Lu
23. LiteFlowNet: A Lightweight Convolutional Neural Network for Optical Flow Estimation
Tak Wai Hui, Xiaoou Tang, Chen Change Loy
24. Low-Latency Video Semantic Segmentation
Yule Li, Jianping Shi, Dahua Lin
25. Look at Boundary: A Boundary-Aware Face Alignment Algorithm
Wayne Wu, Chen Qian, Shuo Yang, Wang Quan
26. LSTM Pose Machines
Yue Luo, Jimmy Ren, Zhouxia Wang, Wenxiu Sun, Jinshan Pan, Jianbo Liu, Jiahao Pang, Liang Lin
27. Mask-guided Contrastive Attention Model for Person Re-Identification
Chunfeng Song, Yan Huang, Wanli Ouyang, Liang Wang
28. Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition
Shuyang Sun, Zhanghui Kuang, Lu Sheng, Wanli Ouyang, Wei Zhang
29. Optimizing Video Object Detection via a Scale-Time Lattice
Kai Chen, Jiaqi Wang, Shuo Yang, Xingcheng Zhang, Yuanjun Xiong, Chen Change Loy, Dahua Lin
30. PAD-Net: Multi-Tasks Guided Prediciton-and-Distillation Network for Simultaneous Depth Estimation and Scene Parsing
Dan Xu, Wanli Ouyang, Xiaogang Wang, Nicu Sebe
31. Path Aggregation Network for Instance Segmentation
Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, Jiaya Jia
32. Pose-Robust Face Recognition via Deep Residual Equivariant Mapping
Kaidi Cao, Yu Rong, Cheng Li, Xiaoou Tang, Chen Change Loy
33. Practical Block-wise Neural Network Architecture Generation
Zhao Zhong, Junjie Yan, Wei Wu, Jing Shao, Cheng-lin Liu
34. Recognize Actions by Disentangling Components of Dynamics
Yue Zhao, Yuanjun Xiong, Dahua Lin
35. Recovering Realistic Texture in Image Super-resolution by Spatial Feature Modulation
Xintao Wang, Ke Yu, Chao Dong, Chen Change Loy
36. Single View Stereo Matching
Yue Luo, Jimmy Ren, Mude Lin, Jiahao Pang,Wenxiu Sun, Hongsheng Li, Liang Lin
37. Temporal Hallucinating for Action Recognition with Few Still Images
Lei Zhou, Yali Wang, Yu Qiao
38. Towards Human-Machine Cooperation: Evolving Active Learning with Self-supervised Process for Object Detection
Keze Wang, Xiaopeng Yan, Lei Zhang, Liang Lin
39. Unifying Identification and Context Learning for Person Recognition
Qingqiu Huang, Yu Xiong, Dahua Lin
40. Unsupervised Feature Learning via Non-Parametric Instance-level Discrimination
Zhirong Wu, Yuanjun Xiong, Stella Yu, Dahua Lin
41. Video Person Re-identification with Competitive Snippet-similarity Aggregation and Co-attentive Snippet Embedding
Dapeng Chen, Hongsheng Li, Tong Xiao, Shuai Yi, Xiaogang Wang
42. Visual Question Generation as Dual Task of Visual Question Answering
Yikang Li, Nan Duan, Bolei Zhou, Xiao Chu, Wanli Ouyang, Xiaogang Wang
43. Weakly Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer
Hao-Shu Fang, Guansong Lu, Xiaolin Fang, Jianwen Xie, Yu-Wing Tai, Cewu Lu
44. Zoom and Learn: Generalizing Deep Stereo Matching to Novel Domains
Jiahao Pang, Wenxiu Sun, Chengxi Yang, Jimmy Ren, Ruichao Xiao, Jin Zeng, Liang Lin
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章