0
本文作者: 奕欣 | 2018-08-09 17:58 |
本文轉(zhuǎn)載自騰訊AI實(shí)驗(yàn)室公眾號(hào)(tencent_ailab)
計(jì)算機(jī)視覺(jué)歐洲大會(huì)(European Conference on Computer Vision,簡(jiǎn)稱ECCV)將于9月8日-14日在德國(guó)慕尼黑舉辦,該會(huì)議與CVPR、ICCV共稱為計(jì)算機(jī)視覺(jué)領(lǐng)域三大頂級(jí)學(xué)術(shù)會(huì)議,每年錄用論文約300篇。
今年是騰訊AI Lab第二次參加ECCV,共有19篇文章入選,以下為摘要解讀。本事項(xiàng)在AI影響因子上有相應(yīng)加分。
在近期結(jié)束的多個(gè)頂會(huì)中,騰訊AI Lab還有多篇論文入選,位居國(guó)內(nèi)企業(yè)前列,包括ACL 2018 (5篇)、ICML 2018(16篇)、CVPR 2018(21篇)和此前的NIPS 2017(8篇)。
1.針對(duì)基于優(yōu)化的視覺(jué)慣導(dǎo)里程計(jì)的動(dòng)態(tài)傳感器延時(shí)建模
Modeling Varying Camera-IMU Time Offset in Optimization-Based Visual-Inertial Odometry
該論文由騰訊AI Lab獨(dú)立完成。由于相機(jī)和IMU(慣導(dǎo)測(cè)量單元)這兩種傳感器提供的信息對(duì)于運(yùn)動(dòng)估計(jì)具有很強(qiáng)的互補(bǔ)性,所以把這兩種傳感器信息融合在一起用于運(yùn)動(dòng)估計(jì)被學(xué)界證實(shí)是很有效的。然而,過(guò)去大部分的相機(jī)和IMU融合方法都是假設(shè)使用了全局快門相機(jī)和同步的傳感器測(cè)量。這個(gè)假設(shè)在現(xiàn)實(shí)情況下往往是不成立的。因?yàn)樵诖蟛糠值南M(fèi)電子產(chǎn)品里,裝配的往往是卷簾快門相機(jī)和非同步的傳感器測(cè)量。為了解決這個(gè)問(wèn)題,本文提出了一種基于非線性優(yōu)化的單目視覺(jué)慣導(dǎo)融合方法。這種方法對(duì)相機(jī)和IMU之間的延時(shí)進(jìn)行建模,并把其當(dāng)作一個(gè)可動(dòng)態(tài)變化的量。本文提出的這種方法可以統(tǒng)一處理使用卷簾快門相機(jī)帶來(lái)的圖像失真問(wèn)題和非同步的傳感器測(cè)量問(wèn)題。同時(shí),為了加速優(yōu)化過(guò)程中所需要的可變長(zhǎng)度IMU測(cè)量積分,本文提出了一種基于動(dòng)態(tài)規(guī)劃和紅黑樹(shù)的高效計(jì)算方法。最后,為了提高單目視覺(jué)慣導(dǎo)融合方法的魯棒性,本文提出了一種對(duì)傳感器噪聲建模的初始化方法。本文在Euroc數(shù)據(jù)集和手機(jī)采集的數(shù)據(jù)中和目前最好的方法進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果表明,本文提出的方法是非常有效的。
2.面向跨年齡人臉識(shí)別的正交深度特征分解
Orthogonal Deep Features Decomposition for Age-Invariant Face Recognition
該論文由騰訊AI Lab獨(dú)立完成。由于年齡變化會(huì)導(dǎo)致人的外貌產(chǎn)生顯著變化,所以跨年齡人臉識(shí)別依舊是人臉識(shí)別領(lǐng)域的一項(xiàng)重要挑戰(zhàn)。為了減少年齡變化導(dǎo)致的類內(nèi)差異,本文提出了一種稱為正交嵌入CNN(Orthogonal Embedding CNNs, OE-CNNs)的新框架來(lái)學(xué)習(xí)對(duì)年齡變化具有魯棒性的深度人臉特征。具體而言,本文將深度人臉特征分解為兩個(gè)正交的分量,分別表示與年齡信息相關(guān)的分量以及與身份信息相關(guān)的分量。通過(guò)剝離與年齡信息相關(guān)的分量,所得到的身份信息特征便可用于精準(zhǔn)的跨年齡人臉識(shí)別。此外,為了補(bǔ)充現(xiàn)有的跨年齡人臉數(shù)據(jù)的不足并推進(jìn)該領(lǐng)域的學(xué)術(shù)研究,本文還構(gòu)建了一個(gè)全新的跨年齡人臉數(shù)據(jù)集(Cross-Age Face Datset, CAF)。研究者在國(guó)際著名的跨年齡人臉識(shí)別數(shù)據(jù)集MORPH Album 2,CACD-VS,F(xiàn)G-NET上進(jìn)行了實(shí)驗(yàn)評(píng)估,驗(yàn)證了所提出的方法的有效性。最后,研究者在通用人臉識(shí)別數(shù)據(jù)集LFW上也做了實(shí)驗(yàn),驗(yàn)證了本文提出的方法對(duì)于通用人臉識(shí)別也有很好的泛化性。
3.針對(duì)圖像自動(dòng)描述的遞歸融合網(wǎng)絡(luò)
Recurrent Fusion Network for Image Captioning
該論文由騰訊AI Lab主導(dǎo),與復(fù)旦大學(xué)合作完成。最近,圖像的自動(dòng)描述已經(jīng)取得了很大進(jìn)展,所有最先進(jìn)的模型都采用了編碼器-解碼器框架。在此框架下,輸入圖像由卷積神經(jīng)網(wǎng)絡(luò)(CNN)編碼,然后通過(guò)遞歸神經(jīng)網(wǎng)絡(luò)(RNN)轉(zhuǎn)換為自然語(yǔ)言。依賴于該框架的現(xiàn)有模型僅使用一種CNN(例如ResNet或Inception-X)來(lái)描述圖像內(nèi)容。因此,不能全面地理解輸入圖像的語(yǔ)義含義,這限制了描述質(zhì)量的提高。在本文中,為了利用來(lái)自多個(gè)編碼器的互補(bǔ)信息,提出了一種用于圖像的自動(dòng)描述任務(wù)的遞歸融合網(wǎng)絡(luò)(RFNet)。該模型的融合過(guò)程可以利用CNN輸出的特征之間的相互關(guān)系,來(lái)為解碼器生成新的更富含信息的圖像表示。MSCOCO數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了本文提出的RFNet的有效性,它是圖像自動(dòng)描述領(lǐng)域中一種新的SOTA技術(shù)。
4.基于堆疊式循環(huán)一致性生成對(duì)抗網(wǎng)絡(luò)的無(wú)間監(jiān)督圖像到圖像轉(zhuǎn)換
Unsupervised Image-to-Image Translation with Stacked Cycle-Consistent Adversarial Networks
該論文由騰訊AI Lab主導(dǎo),與復(fù)旦大學(xué)合作完成。最近關(guān)于無(wú)監(jiān)督的圖像到圖像轉(zhuǎn)換研究取得了較為顯著的進(jìn)展,其主要是通過(guò)訓(xùn)練一對(duì)具有循環(huán)一致性損失(cycle-consistent loss)的生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks)。然而,當(dāng)圖像分辨率高或者兩個(gè)圖像域具有顯著差異時(shí)(例如 Cityscapes 數(shù)據(jù)集中圖像語(yǔ)義分割與城市景觀照片之間的轉(zhuǎn)換),這種無(wú)監(jiān)督方法可能產(chǎn)生較差的結(jié)果。在本文中,通過(guò)把單個(gè)轉(zhuǎn)換分解為多階段轉(zhuǎn)換,提出了堆疊循環(huán)一致性對(duì)抗網(wǎng)絡(luò)(SCAN)。其通過(guò)學(xué)習(xí)低分辨率圖像到圖像的轉(zhuǎn)換,然后基于低分辨率的轉(zhuǎn)換學(xué)習(xí)更高分辨率的轉(zhuǎn)換,這樣做提高了圖像轉(zhuǎn)換質(zhì)量并且使得學(xué)習(xí)高分辨率轉(zhuǎn)換成為可能。此外,為了適當(dāng)?shù)乩脕?lái)自前一階段的學(xué)習(xí)到的信息,研究者設(shè)計(jì)了自適應(yīng)融合塊以學(xué)習(xí)當(dāng)前階段的輸出和前一階段的輸出的動(dòng)態(tài)整合。在多個(gè)數(shù)據(jù)集的實(shí)驗(yàn)表明,與以前的單階段方法相比,本文提出的方法可以大大提高圖像到圖像轉(zhuǎn)換的質(zhì)量。
5.基于神經(jīng)網(wǎng)絡(luò)的雙目圖像風(fēng)格轉(zhuǎn)移
Neural Stereoscopic Image Style Transfer
該論文由騰訊AI Lab主導(dǎo),與電子科技大學(xué)合作完成。神經(jīng)風(fēng)格轉(zhuǎn)移是一種新興技術(shù),能夠賦予普通圖像以極具吸引力的藝術(shù)風(fēng)格?,F(xiàn)有的工作已經(jīng)成功的應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來(lái)對(duì)2D圖像或視頻進(jìn)行風(fēng)格轉(zhuǎn)移。然而,雙目3D圖像的風(fēng)格轉(zhuǎn)移仍然缺乏相應(yīng)的研究工作。與2D圖像不同,對(duì)雙目3D圖像進(jìn)行風(fēng)格轉(zhuǎn)移的時(shí)候需要保留輸入圖片的深度信息,否則生成的風(fēng)格化雙目3D圖像的立體感會(huì)被嚴(yán)重地破壞。在本文中,研究者構(gòu)建了一個(gè)新穎的雙路徑網(wǎng)絡(luò),雙目3D圖像的每張圖片都是在單獨(dú)的路徑中處理。該網(wǎng)絡(luò)能夠在對(duì)雙目3D圖片進(jìn)行風(fēng)格轉(zhuǎn)移的同時(shí),保留輸入圖片的深度信息。除了使用傳統(tǒng)的感知損失來(lái)控制生成圖片的風(fēng)格化質(zhì)量外,研究者提出了多層視角損失函數(shù),能夠有效的保留輸入圖片的深度信息。此外,研究者還提出了一個(gè)特征聚合模塊,該模塊能夠有效地共享兩條路徑之間的特征信息,在多層視角損失函數(shù)的監(jiān)督下,該模塊能夠進(jìn)一步保留輸入圖片的深度信息。實(shí)驗(yàn)結(jié)果表明,與以前的方法相比,該網(wǎng)絡(luò)不僅能夠?qū)崿F(xiàn)優(yōu)秀的風(fēng)格轉(zhuǎn)移效果,還能夠很好的保持原圖的深度信息。
6.視頻再定位
Video Re-localization
該論文由騰訊AI Lab主導(dǎo),與羅徹斯特大學(xué)合作完成。目前,視頻檢索領(lǐng)域已經(jīng)發(fā)展的很成熟,但是這個(gè)領(lǐng)域當(dāng)中還有一些未解決的問(wèn)題。例如,給定一個(gè)查詢視頻,如何在一個(gè)長(zhǎng)的備選視頻當(dāng)中找到與查詢視頻語(yǔ)義相關(guān)的片段?本文定義了一種名叫視頻重定位(video re-localization)的新任務(wù)來(lái)解決這樣的問(wèn)題。視頻重定位有廣泛的應(yīng)用價(jià)值,例如它可以用于視頻片段定位、拷貝檢測(cè)、視頻監(jiān)控等。同時(shí),視頻重定位也是一種很難解決的任務(wù),因?yàn)檎Z(yǔ)義相關(guān)的視頻,可能看起來(lái)非常不同。要解決視頻重定位問(wèn)題,第一個(gè)難點(diǎn)就是沒(méi)有相關(guān)的視頻數(shù)據(jù)集。收集和標(biāo)注語(yǔ)義相關(guān)的視頻,是一項(xiàng)非常費(fèi)時(shí)費(fèi)力的工作。因此,研究者重新組織了ActivityNet數(shù)據(jù)集中的視頻,用于視頻重定位的研究。然后,本文提出了一種cross gating的雙線性匹配(bilinear matching)模型,用來(lái)匹配查詢視頻和備選視頻。最后,研究者用分類的方式,來(lái)預(yù)測(cè)相關(guān)片段的起始點(diǎn)和終止點(diǎn)。實(shí)驗(yàn)證明,本文提出的方法要優(yōu)于相應(yīng)的基線模型。
7.針對(duì)人臉超分辨率的超身份同一性卷積神經(jīng)網(wǎng)絡(luò)模型
Super-Identity Convolutional Neural Network for Face Hallucination
該論文由騰訊AI Lab與香港中文大學(xué)、德克薩斯州大學(xué)奧斯汀分校等合作完成。人臉超分辨率是解決利用低分辨率人臉圖像生成高分辨率人臉圖像的生成式任務(wù),同時(shí)需要考慮到人的面部感觀非常依賴身份信息。然而,先前的人臉超分辨率方法忽略了對(duì)面部身份信息的恢復(fù)。本文提出了超身份同一性卷積神經(jīng)網(wǎng)絡(luò)(SICNN)來(lái)恢復(fù)身份同一性,以便于生成接近真實(shí)身份的超分辨率人臉圖像。具體地,研究者在超球面的身份度量空間定義一個(gè)超身份同一性損失,用于衡量生成圖像和真實(shí)高分辨率圖像的身份差異性。然而,直接使用這個(gè)損失將導(dǎo)致動(dòng)態(tài)域不收斂問(wèn)題,這是由真實(shí)高分辨率域與生成高分辨率域之間存在的較大間隔引起的。為了克服這一挑戰(zhàn),研究者提出了一個(gè)通過(guò)在這兩個(gè)域之間構(gòu)建魯棒的身份度量約束的訓(xùn)練方法。大量的實(shí)驗(yàn)評(píng)估證明,相比之前最先進(jìn)的方法,在具有挑戰(zhàn)性的對(duì)12x14的人臉圖像進(jìn)行8倍超分辨率任務(wù)上,本文提出的SICNN方法取得了更優(yōu)越的超分辨率可視效果。此外,SICNN方法顯著提高了極低分辨率人臉圖像的可識(shí)別性。
8.Bi-Real網(wǎng)絡(luò):具有更強(qiáng)表達(dá)能力的1-比特卷積神經(jīng)網(wǎng)絡(luò)及一種先進(jìn)訓(xùn)練算法
Bi-Real Net: Enhancing the Performance of 1-bit CNNs with Improved Representational Capability and Advanced Training Algorithm
該論文由騰訊AI Lab與香港科技大學(xué)、華中科技大學(xué)合作完成。本文研究了1-比特卷積神經(jīng)網(wǎng)絡(luò),也即網(wǎng)絡(luò)參數(shù)和激活函數(shù)輸出都是二值化。相對(duì)于標(biāo)準(zhǔn)的實(shí)數(shù)化網(wǎng)絡(luò),1-比特網(wǎng)絡(luò)在存儲(chǔ)空間和計(jì)算復(fù)雜度上具有很大的優(yōu)勢(shì),但是其分類性能還相距甚遠(yuǎn)。為了縮小1-比特網(wǎng)絡(luò)和實(shí)數(shù)化網(wǎng)絡(luò)的性能差距,本文提出了一種新的1-比特網(wǎng)絡(luò),名為Bi-Real網(wǎng)絡(luò)。其基本思想是通過(guò)一個(gè)殘差結(jié)構(gòu),將網(wǎng)絡(luò)訓(xùn)練過(guò)程中產(chǎn)生的實(shí)數(shù)化輸出(即1-比特卷積層的輸出,Sign激活函數(shù)的輸入)與下一模塊的輸出結(jié)合,大幅度提高了網(wǎng)絡(luò)的表征潛力,且沒(méi)有增加額外的計(jì)算成本。為了更好地挖掘出Bi-Real網(wǎng)絡(luò)的表征潛力,本文提出了全新的訓(xùn)練算法,包括三個(gè)具體的創(chuàng)新點(diǎn):1)設(shè)計(jì)對(duì)Sign激活函數(shù)的更緊致可導(dǎo)估計(jì)函數(shù);2)利用參數(shù)幅值相關(guān)的梯度來(lái)更新參數(shù);3)設(shè)計(jì)更合適的實(shí)數(shù)化網(wǎng)絡(luò)對(duì)Bi-Real網(wǎng)絡(luò)進(jìn)行初始化。本工作以殘差神經(jīng)網(wǎng)絡(luò)為主干網(wǎng)絡(luò),設(shè)計(jì)了兩種不同深度的Bi-Real網(wǎng)絡(luò),分別為18層和34層,并在ImageNet數(shù)據(jù)集上進(jìn)行了測(cè)試,它們分別取得了56.4%和62.2%的top-1識(shí)別精度。相較于當(dāng)前最先進(jìn)的1-比特網(wǎng)絡(luò)(即XNOR網(wǎng)絡(luò)),Bi-Real網(wǎng)絡(luò)取得了10%以上的相對(duì)精度提高。
9.基于多樣性和隨機(jī)性的圖聚類方法的增量多圖匹配
Incremental Multi-graph Matching via Diversity and Randomness based Graph Clustering
該論文由騰訊AI Lab與上海交通大學(xué)、亞利桑那州立大學(xué)合作完成。多圖匹配涉及在多個(gè)圖結(jié)構(gòu)之間找到對(duì)應(yīng)關(guān)系,現(xiàn)有方法主要通過(guò)一次性匹配全量的方式來(lái)求解該問(wèn)題。然而,實(shí)際應(yīng)用中,往往需要應(yīng)對(duì)不斷新增的圖樣本。這一需求促使本文提出了一個(gè)增量式的多圖在線匹配方法。具體而言,通過(guò)分組內(nèi)的樣本多樣性,我們對(duì)圖樣本進(jìn)行分組,每次新的樣本被歸入某一分組,進(jìn)行在線匹配,并將信息在不同分組間傳遞與更新。實(shí)驗(yàn)證明,我們的在線匹配方法在不明顯犧牲精度的情形下,顯著提高了計(jì)算效率。
10.Pixel2Mesh: 從單幀RGB圖像生成三維網(wǎng)孔模型
Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
該論文由騰訊AI Lab與復(fù)旦大學(xué)、普林斯頓大學(xué)、Intel Labs合作完成。本文提出了一種端到端的深度學(xué)習(xí)框架,可從單張彩色圖片直接生成3D mesh。受深度神經(jīng)網(wǎng)絡(luò)特性的限制,以前的方法通常用volume或者point cloud表示三維形狀,將它們轉(zhuǎn)換為更易于使用的mesh并非易事。與現(xiàn)有方法不同,本文使用圖卷積神經(jīng)網(wǎng)絡(luò)表示3D mesh,利用從輸入圖像中提取的特征逐步對(duì)橢球進(jìn)行變形從而產(chǎn)生正確的幾何形狀。本文使用由粗到精的模式進(jìn)行生成,使得整個(gè)變形過(guò)程更加穩(wěn)定。此外,本文還定義了幾種與mesh相關(guān)的損失函數(shù)捕捉不同級(jí)別的特性,以保證視覺(jué)上有吸引力并且物理上高重建精度。大量實(shí)驗(yàn)表明,本文的方法不僅定性上可以生成細(xì)節(jié)更加充分的mesh模型,而且定量上與當(dāng)前最好的方法相比也實(shí)現(xiàn)了更高的重建精度。
11.針對(duì)行人重識(shí)別的姿態(tài)歸一化的圖像生成方法
Pose-Normalized Image Generation for Person Re-identification
該論文由騰訊AI Lab與復(fù)旦大學(xué)、倫敦瑪麗皇后大學(xué)等合作完成。行人重識(shí)別問(wèn)題通常面臨兩大主要的挑戰(zhàn):(1) 缺乏大量出現(xiàn)在多個(gè)監(jiān)控視頻下的行人訓(xùn)練數(shù)據(jù);(2)需求在巨大姿態(tài)變化的數(shù)據(jù)中訓(xùn)練學(xué)習(xí)到對(duì)身份信息敏感、且具有視角不變性的特征。在本論文工作中,提出了一個(gè)全新的深度圖像生成模型,通過(guò)生成逼真的特定姿態(tài)下的行人圖片來(lái)解決上述兩個(gè)難點(diǎn)。該模型基于對(duì)抗生成網(wǎng)絡(luò)(GAN)進(jìn)行改進(jìn),實(shí)現(xiàn)行人重識(shí)別問(wèn)題中的行人姿態(tài)歸一化目標(biāo),由此本文命名為姿態(tài)歸一化對(duì)抗生成網(wǎng)絡(luò)(PN-GAN)。具體地,研究者利用姿態(tài)歸一化對(duì)抗生成網(wǎng)絡(luò)生成額外不同姿態(tài)的行人圖片,從中學(xué)習(xí)到一種新的具有姿態(tài)不變性的行人特征。大量實(shí)驗(yàn)結(jié)果表明該特征可以很好的與原始行人圖片特征形成互補(bǔ),從而提升行人重識(shí)別任務(wù)的準(zhǔn)確度。更重要的是,在本論文中,考慮并提出了一種更具真實(shí)適用性的無(wú)監(jiān)督學(xué)習(xí)問(wèn)題,并且通過(guò)實(shí)驗(yàn)證明該模型在該問(wèn)題下具有潛在的強(qiáng)大的泛化能力,即對(duì)于一個(gè)全新的行人重識(shí)別數(shù)據(jù)或行人監(jiān)控網(wǎng)絡(luò),該模型可以在不進(jìn)行任何微調(diào)訓(xùn)練的前提下取得較好的精度。
12.深入研究深度信息: 利用語(yǔ)意關(guān)聯(lián)和關(guān)注度驅(qū)動(dòng)損失函數(shù)進(jìn)行單目深度估計(jì)
Look Deeper into Depth: Monocular Depth Estimation with Semantic Booster and Attention-Driven Loss
該論文由騰訊AI Lab與香港城市大學(xué)、美國(guó)伊利諾伊州大學(xué)香檳城分校合作完成。機(jī)器學(xué)習(xí)技術(shù)提升了單目圖像的深度估計(jì)效果,研究者觀察到在現(xiàn)有的訓(xùn)練數(shù)據(jù)中深度圖像的像素值呈現(xiàn)出一個(gè)長(zhǎng)尾分布。然而,大部分已有方法并未特別處理深度區(qū)域在圖像中的分布不平衡問(wèn)題,從而導(dǎo)致其模型在估計(jì)圖像中遠(yuǎn)距離區(qū)域時(shí)性能受限。在本文中,研究者調(diào)研了長(zhǎng)尾分布的特性,深入挖掘圖像中遠(yuǎn)距離區(qū)域并提出一種由關(guān)注度驅(qū)動(dòng)的損失函數(shù)來(lái)監(jiān)督式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)。除此之外,為了更好的利用圖像的語(yǔ)義信息進(jìn)行單目深度估計(jì),研究者提出了一個(gè)協(xié)同網(wǎng)絡(luò)從而自動(dòng)的學(xué)習(xí)這兩個(gè)任務(wù)的共通性。在關(guān)注度驅(qū)動(dòng)的損失函數(shù)和協(xié)同網(wǎng)絡(luò)的共同作用下,圖像的深度估計(jì)和語(yǔ)義標(biāo)注性能得到了相互提升。研究者在挑戰(zhàn)性的室內(nèi)數(shù)據(jù)庫(kù)進(jìn)行了實(shí)驗(yàn),其結(jié)果表明本文提出的方法在單目深度估計(jì)和語(yǔ)義標(biāo)注任務(wù)中取得了最優(yōu)的效果。
13.針對(duì)語(yǔ)義分割和單目深度預(yù)測(cè)的聯(lián)合任務(wù)遞歸學(xué)習(xí)
Joint Task-Recursive Learning for Semantic Segmentation and Depth Estimation
該論文由騰訊AI Lab與南京理工大學(xué)合作完成。本文提出了一種全新的聯(lián)合任務(wù)遞歸學(xué)習(xí)的框架,用于聯(lián)合解決語(yǔ)義分割和單目深度預(yù)測(cè)問(wèn)題。該模型能依靠序列化的任務(wù)級(jí)別的相互作用遞歸地改善兩個(gè)任務(wù)的結(jié)果。為了兩個(gè)任務(wù)能相互促進(jìn),研究者將它們的相互作用嵌入到任務(wù)注意力模塊(TAM)來(lái)自適應(yīng)地增強(qiáng)兩個(gè)任務(wù)的對(duì)應(yīng)相關(guān)的模式特征。而且,為了讓預(yù)測(cè)更可信,研究者通過(guò)顯式連接之前的響應(yīng),將兩個(gè)任務(wù)過(guò)去的學(xué)習(xí)經(jīng)歷傳播到下一次網(wǎng)絡(luò)預(yù)測(cè)。任務(wù)級(jí)別的相互作用序列最終演化成從粗到細(xì)的尺度遞變,這樣所需要的細(xì)節(jié)信息能夠漸進(jìn)式地重建出來(lái)。在NYU depth v2和SUN RGB-D兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明本文提出的方法能夠取得最前沿的單目深度預(yù)測(cè)和圖像語(yǔ)義分割結(jié)果。
14.模塊化生成對(duì)抗網(wǎng)絡(luò)
Modular Generative Adversarial Networks
該論文由騰訊AI Lab與英屬哥倫比亞大學(xué)合作完成?,F(xiàn)有多領(lǐng)域圖像變換方法嘗試用一個(gè)單一模型取得映射結(jié)果。然而,這些方法的可擴(kuò)展性和魯棒性有限。受模塊網(wǎng)絡(luò)啟發(fā),本文提出了一種含有多個(gè)可重復(fù)利用且兼容模塊的多領(lǐng)域圖像變換模型ModularGAN,來(lái)實(shí)現(xiàn)不同功能的圖像變換。這些模塊可同時(shí)訓(xùn)練,并且可以根據(jù)圖像變換涉及的領(lǐng)域被選擇來(lái)聯(lián)合使用以組建不同結(jié)構(gòu)的網(wǎng)絡(luò)。這賦予ModularGAN優(yōu)異的可擴(kuò)展性用以變換圖像到任意希望的領(lǐng)域。實(shí)驗(yàn)結(jié)果顯示,該模型不僅展現(xiàn)出引人注目的視覺(jué)效果,并且能在多領(lǐng)域臉部特征遷移的任務(wù)上超過(guò)現(xiàn)有最優(yōu)的方法。
15.基于單張圖片的人像虛化效果生成
Rendering Portraitures from Monocular Camera and Beyond
該論文由騰訊AI Lab與清華大學(xué)、加州大學(xué)默賽德分校、英偉達(dá)合作完成。淺景深是攝影的一種藝術(shù)效果,通常需要單鏡頭反光相機(jī)和某些攝影技巧來(lái)產(chǎn)生這樣的效果。最近,手機(jī)的雙鏡頭被用來(lái)估計(jì)場(chǎng)景的深度,并模擬了肖像拍攝的效果。然而,這種技術(shù)不能應(yīng)用到已經(jīng)拍攝的照片上,而且對(duì)于拍攝對(duì)象與攝像機(jī)距離很近的人像拍攝應(yīng)用中。本文中,提出了一種全自動(dòng)方法實(shí)現(xiàn)單目照相機(jī)的肖像渲染。具體地,研究者首先利用卷積神經(jīng)網(wǎng)絡(luò)來(lái)估計(jì)一個(gè)輸入圖像的相對(duì)深度和肖像分割圖。由于來(lái)自單張圖片的初始分割結(jié)果通常較為粗糙且缺少細(xì)節(jié),因此研究者進(jìn)一步學(xué)習(xí)相鄰像素間的相互關(guān)系來(lái)改進(jìn)分割結(jié)果。通過(guò)改進(jìn)的分割估計(jì)和深度結(jié)果,研究者利用條件隨機(jī)場(chǎng)和摳像技術(shù)對(duì)圖像進(jìn)行模糊渲染。另外,研究者訓(xùn)練了空間變換的遞歸神經(jīng)網(wǎng)絡(luò)來(lái)加速渲染過(guò)程。大量實(shí)驗(yàn)驗(yàn)證,本文提出的方法相對(duì)現(xiàn)有方法具有更好的人像虛化效果。
16. 面向目標(biāo)檢測(cè)任務(wù)的深度特征金字塔再組合
Deep Feature Pyramid Reconfiguration for Object Detection
該論文由騰訊AI Lab與清華大學(xué)合作完成。目前最好的目標(biāo)檢測(cè)器大多通過(guò)特征金字塔來(lái)學(xué)習(xí)多尺度表示從而取得更高的檢測(cè)精度。然而,當(dāng)前特征金字塔的設(shè)計(jì)在如何整合不同尺度的語(yǔ)義信息方面仍然不夠高效。為此,本文在調(diào)研當(dāng)前主流特征金字塔方法的基礎(chǔ)上把特征金字塔轉(zhuǎn)換為特征的再組合過(guò)程,創(chuàng)造性地提出了一種高度非線性但是計(jì)算快速的結(jié)構(gòu)將底層表示和高層語(yǔ)義特征進(jìn)行整合。具體而言,該網(wǎng)絡(luò)由兩個(gè)模塊組成:全局注意力和局部再組合。這兩個(gè)模塊分布能全局和局部地去在不同的空間和尺度上提取任務(wù)相關(guān)的特征。重要的是,這兩個(gè)模塊具有輕量級(jí)、可嵌入和可端到端訓(xùn)練的優(yōu)點(diǎn)。在基于SSD的框架上,該模型取得里比原始模型及其他變體方法明顯更好的檢測(cè)精度,而且沒(méi)有犧牲實(shí)時(shí)的處理速度。
17.弱監(jiān)督下的區(qū)域提名網(wǎng)絡(luò)和目標(biāo)檢測(cè)
Weakly Supervised Region Proposal Network and Object Detection
該論文由騰訊AI Lab與華中科技大學(xué)、德州大學(xué)阿靈頓分校、約翰斯·霍普金斯大學(xué)合作完成?;诰矸e網(wǎng)絡(luò)的區(qū)域提名生成方法(RPN)通過(guò)邊框標(biāo)注進(jìn)行訓(xùn)練,是當(dāng)前全監(jiān)督目標(biāo)檢測(cè)器一個(gè)核心部分。然而弱監(jiān)督目標(biāo)檢測(cè)器因?yàn)槿狈吙驑?biāo)注,所以沒(méi)有得益于基于CNN的提名生成方法,而只能依賴傳統(tǒng)的提名生成方法,例如選擇性搜索法。這篇文章提出了一種只利用圖片級(jí)的標(biāo)注的區(qū)域提名網(wǎng)絡(luò),該網(wǎng)絡(luò)由兩個(gè)步驟組成。第一個(gè)步驟是通過(guò)探尋卷積網(wǎng)絡(luò)的低層信息來(lái)評(píng)價(jià)滑動(dòng)窗口的目標(biāo)顯著性;第二個(gè)步驟利用基于區(qū)域的卷積分類器來(lái)修正第一階段所生成的提名邊框。本文提出的網(wǎng)絡(luò)適用于弱監(jiān)督目標(biāo)檢測(cè),可以嵌入到任意弱監(jiān)督檢測(cè)器,并共享卷積計(jì)算。在PASCAL VOC和ImageNet的檢測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)表明,此方法比其他弱監(jiān)督檢測(cè)方法高大約3%的平均識(shí)別率。
18.局部多樣性要有多局部?以動(dòng)態(tài)基礎(chǔ)集合強(qiáng)化行列式點(diǎn)過(guò)程以及在有監(jiān)督視頻摘要中的應(yīng)用
How Local is the Local Diversity? Reinforcing Sequential Determinantal Point Processes with Dynamic Ground Sets for Supervised Video Summarization
該論文由騰訊AI Lab與中佛羅里達(dá)大學(xué)、愛(ài)荷華大學(xué)合作完成。大量的視頻內(nèi)容和高觀看頻率呼喚自動(dòng)的視頻摘要算法,而這些算法的一個(gè)關(guān)鍵屬性是能夠?qū)Χ鄻有越?。如果視頻長(zhǎng)達(dá)數(shù)小時(shí)——比如第一視角的視頻一般都很冗長(zhǎng),則有必要對(duì)視頻的局部多樣性建模。局部多樣性指的是對(duì)短時(shí)間片段的摘要是有多樣性的,但是如果一些片段在視頻中出現(xiàn)時(shí)間相距很遠(yuǎn),則允許它們同時(shí)出現(xiàn)在摘要中——即使它們看起來(lái)相似。在本文中,提出了一種基于行列式點(diǎn)過(guò)程(SeqDPP)的新的概率模型,用于動(dòng)態(tài)控制視頻片段的時(shí)間跨度,并在該視頻片段上施加局部多樣性。研究者使SeqDPP能夠主動(dòng)學(xué)習(xí)如何從輸入視頻中推斷局部多樣性的局部范圍。由此產(chǎn)生的模型對(duì)最大似然估計(jì)(MLE)類型的訓(xùn)練方法提出極大的挑戰(zhàn),同時(shí)也受到暴露偏差和不可微分的評(píng)估指標(biāo)的影響。為了解決這些問(wèn)題,研究者設(shè)計(jì)了一種強(qiáng)化學(xué)習(xí)算法來(lái)訓(xùn)練提出的模型。大量實(shí)驗(yàn)驗(yàn)證了該模型和新的學(xué)習(xí)算法優(yōu)于以前的方法,尤其明顯優(yōu)于基于MLE的方法。
19.提高行列式點(diǎn)過(guò)程以及在有監(jiān)督視頻摘要中的應(yīng)用
Improving Sequential Determinantal Point Processes for Supervised Video Summarization
該論文由騰訊AI Lab與中佛羅里達(dá)大學(xué)、麻省理工學(xué)院、愛(ài)荷華大學(xué)合作完成。現(xiàn)在制作視頻比以往任何時(shí)候都容易。無(wú)處不在的視頻數(shù)據(jù)已經(jīng)成為信息發(fā)現(xiàn)和提取的重要來(lái)源,但計(jì)算的挑戰(zhàn)也是無(wú)與倫比的。自動(dòng)視頻摘要已成為瀏覽、搜索、和索引可視內(nèi)容的重要需求。本文采用時(shí)序行列式點(diǎn)過(guò)程(SeqDPPs)進(jìn)行有監(jiān)督的視頻摘要,通過(guò)概率分布對(duì)多樣性進(jìn)行建模。研究者從兩方面改進(jìn)了這個(gè)模型。在學(xué)習(xí)方面,提出了一種大間距算法來(lái)解決SeqDPP中的暴露偏差問(wèn)題。在建模方面,設(shè)計(jì)了一個(gè)新的概率分布,當(dāng)它被集成到SeqDPP時(shí),最終模型允許用戶輸入對(duì)摘要的期望長(zhǎng)度。此外,還顯著拓展了現(xiàn)有的視頻摘要數(shù)據(jù)庫(kù):1)加入更多的第一視角的視頻,2)收集高密度的用戶注釋,以及3)提高評(píng)估方案。研究者用該數(shù)據(jù)集進(jìn)行了大量實(shí)驗(yàn)(總共約60小時(shí)的視頻),并將該方法與幾個(gè)現(xiàn)有方法進(jìn)行了比較。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。