0
本文作者: 隔壁王大喵 | 編輯:郭奕欣 | 2017-07-19 20:56 | 專題:CVPR 2017 |
雷鋒網(wǎng)AI科技評(píng)論按:CVPR全稱為“IEEE Conference on Computer Vision and Pattern Recognition”(計(jì)算機(jī)視覺與模式識(shí)別會(huì)議),是計(jì)算機(jī)視覺與模式識(shí)別領(lǐng)域最有影響力的國際學(xué)術(shù)會(huì)議之一。CVPR將于2017于7月21日至7月26日舉行,雷鋒網(wǎng)AI科技評(píng)論將從夏威夷帶來一線報(bào)道。該會(huì)議舉辦期間,雷鋒網(wǎng)將圍繞會(huì)議議程及獲獎(jiǎng)?wù)撐恼归_系列專題報(bào)道,敬請(qǐng)期待。
論文作者:Dongdong Chen, Lu Yuan, Jing Liao, Nenghai Yu, Gang Hua
論文鏈接:https://arxiv.org/abs/1703.09210
論文摘要:
據(jù)雷鋒網(wǎng)了解,該項(xiàng)工作提出了一種基于神經(jīng)網(wǎng)絡(luò)的SytleBank算法。該算法的用途顧名思義就是用于圖像風(fēng)格遷移(Image style transfer)。StyleBank由許多的卷積濾波器堆(Convolution filter banks)組成,并且每一個(gè)濾波器堆(Filter bank)代表了一種圖像風(fēng)格。為了將一張圖像風(fēng)格轉(zhuǎn)換成特定的畫風(fēng),與之相對(duì)應(yīng)的濾波器堆將被應(yīng)用于由單個(gè)自動(dòng)編碼器(Auto-encoder)生成的中間特征嵌入(Intermediate feature embedding)上。
圖一,展示了該論文采用的網(wǎng)絡(luò)結(jié)構(gòu),它包含有3個(gè)模塊:圖像編碼器、負(fù)責(zé)風(fēng)格轉(zhuǎn)換的StyleBank層和圖像解碼器。
據(jù)悉,StyleBank和自動(dòng)編碼器將以聯(lián)合的方式同時(shí)進(jìn)行學(xué)習(xí)訓(xùn)練。然后由于采用了顯示濾波器堆表征(Explicit filter bank representation)這一結(jié)構(gòu)所帶來的靈活性,使得網(wǎng)絡(luò)在學(xué)習(xí)過程中,自動(dòng)編碼器不需要對(duì)任何圖像風(fēng)格信息進(jìn)行編碼。
圖二,展示了從風(fēng)格化后圖像中的兩種代表性補(bǔ)丁中學(xué)習(xí)到的風(fēng)格重構(gòu)。
另外該結(jié)構(gòu)也使得我們能夠在網(wǎng)絡(luò)上實(shí)現(xiàn)增量學(xué)習(xí)(Incremental learning),也就說,我們可以在保持自動(dòng)編碼器不變的情況下通過學(xué)習(xí)全新的濾波器堆的方式,給網(wǎng)絡(luò)添加全新的圖像風(fēng)格。顯式的風(fēng)格表征(Explicit style representation)以及靈活的網(wǎng)絡(luò)設(shè)計(jì),使得我們不僅能在圖像級(jí)別(Image level)融合風(fēng)格,而且在更細(xì)微的區(qū)域級(jí)別(Region level)也能實(shí)現(xiàn)畫風(fēng)融合。
圖三,經(jīng)典圖像的風(fēng)格化結(jié)果,包含了四部分不同的顏色或紋理。
同時(shí),該項(xiàng)工作所提出的方法也是第一個(gè)借鑒了傳統(tǒng)的文本映射方法(Texton mapping methods)的風(fēng)格遷移網(wǎng)絡(luò),從而為基于神經(jīng)網(wǎng)絡(luò)的風(fēng)格遷移研究提供了新的思路。此外,該方法還具有很多其它的優(yōu)點(diǎn),比如:容易訓(xùn)練、實(shí)時(shí)運(yùn)行、生成的圖像效果較好。
論文作者:Zhaofan Qiu, Ting Yao, Tao Mei
論文鏈接:https://arxiv.org/abs/1611.09502
論文摘要:
深度卷積神經(jīng)網(wǎng)絡(luò)(Deep convolutional neural networks, CNNs)已經(jīng)被證實(shí)了對(duì)于處理視覺識(shí)別問題的有效性,而其中從卷積層的激活中學(xué)習(xí)通用表示(Universal representation)則是一個(gè)更加根本的問題。據(jù)雷鋒網(wǎng)了解,在這項(xiàng)由梅濤老師指導(dǎo)的研究工作中,研究員們提出了使用變分自動(dòng)編碼器(Variational AutoEncoder, VAE)的Fisher Vector編碼(FV-VAE),這是一種全新的深度架構(gòu)。該架構(gòu)通過端到端(End-to-end)的方式進(jìn)行訓(xùn)練,以實(shí)現(xiàn)量化深度生成模型(Deep generative model)中卷積層的局部激活。
圖一,展示了來自CNN不同卷積層激活的可視化表示。第一行,全連接層的全局激活;第二行,采用Fisher Vector編碼的卷積激活;第三行,采用FV-VAE編碼的卷積激活。
為了將FV編碼策略納入到深度生成模型中,研究員們引入了變分自動(dòng)編碼器模型,該模型引導(dǎo)了神經(jīng)網(wǎng)絡(luò)中的變分推理和學(xué)習(xí),并且可以使用標(biāo)準(zhǔn)的隨機(jī)梯度下降法直接進(jìn)行優(yōu)化。與通過簡單地將離散混合模型擬合為數(shù)據(jù)分布的常規(guī)生成模型(例如,高斯混合模型)來表征的FV不同,該論文中所提出的FV-VAE能夠更加靈活地表示出數(shù)據(jù)的自然特性,并且具備更好的泛化能力。最后,研究員們?cè)谝曨l動(dòng)作識(shí)別(Video action recognition)和細(xì)粒度圖像分類(Fine-grained image classification)兩項(xiàng)任務(wù)中,分別在UCF101、ActivityNet和CUB-200-2011三個(gè)公共數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn)。與目前最新的其它同類方法相比,實(shí)驗(yàn)結(jié)果表現(xiàn)優(yōu)秀。而最顯著的是,F(xiàn)V-VAE在UCF101數(shù)據(jù)集上達(dá)到了94.2%的準(zhǔn)確率,這一數(shù)值是當(dāng)前最佳。
論文作者:Xiangyu Kong, Bo Xin, Yizhou Wang, Gang Hua
論文鏈接:https://arxiv.org/abs/1702.05573
論文摘要:
該篇論文的研究員研究了在互動(dòng)場景下,多個(gè)對(duì)象的聯(lián)合自頂向下主動(dòng)搜索(Joint top-down active search)的問題,例如,騎自行車的人,放在桌上的杯子等。研究員認(rèn)為在互動(dòng)場景中,對(duì)象之間的交互通??梢詾楸舜颂峁┥舷挛奶崾?,利用這一信息將有助于提高搜索的效率。據(jù)悉,通過將每個(gè)檢測器作為智能代理,該論文第一個(gè)提出了協(xié)作多智能代理(Collaborative multi-agent)的深度強(qiáng)化學(xué)習(xí)算法,在有效利用這些有益的上下文信息的基礎(chǔ)上,學(xué)習(xí)聯(lián)合主動(dòng)對(duì)象定位(Joint active object localization)的最優(yōu)策略。
圖一,展示了聯(lián)合智能代理檢測(Joint agent detection)與單一智能代理檢測(Single agent detection)的結(jié)果比較。邊框(Bounding box)的軌跡通過顏色漸變來展示。藍(lán)色用于人物而紅色用于自行車。其中成功的檢測結(jié)果通過加粗的綠色邊框進(jìn)行強(qiáng)調(diào)。當(dāng)采用聯(lián)合智能代理檢測時(shí),在15次迭代之內(nèi)便檢測到了自行車和小孩;當(dāng)采用單一智能代理檢測時(shí),即便在200次迭代之后依然沒有正確定位到自行車(圖中只顯示了前30次迭代)。
該論文中,通過Q-networks之間的門控交叉連接來學(xué)習(xí)多智能代理間通信,而這一點(diǎn)的實(shí)現(xiàn)則依賴于具有聯(lián)合開發(fā)采樣(Joint exploitation sampling)的新型多智能代理深度Q-learning學(xué)習(xí)算法。論文的研究員在多對(duì)象檢測基準(zhǔn)(Multiple object detection benchmarks)中驗(yàn)證該方法。最后,實(shí)驗(yàn)表明該模型不僅有助于提高最新的活躍定位模型(Active localization models)的性能,還能揭示直觀可解釋的有趣的聯(lián)合檢測模式(Co-detection patterns)。
論文作者:Jiaolong Yang, Peiran Ren, Dongqing Zhang, Dong Chen, Fang Wen, Hongdong Li, Gang Hua
作者主頁:https://www.microsoft.com/en-us/research/people/jiaoyan/
論文鏈接:https://arxiv.org/abs/1603.05474
論文摘要:
本文提出了一種用于視頻中人臉識(shí)別的神經(jīng)聚合網(wǎng)絡(luò)(Neural Aggregation Network, NAN)。據(jù)悉,該網(wǎng)絡(luò)將人臉視頻或者人臉圖像集(這些人臉數(shù)據(jù)中關(guān)于某一個(gè)人的人臉圖像數(shù)量可變)作為輸入,然后生成可用于識(shí)別的緊湊且維度固定的特征表示。整個(gè)網(wǎng)絡(luò)由兩大模塊組成。
圖一,展示了視頻人臉識(shí)別的網(wǎng)絡(luò)架構(gòu)。所有的人臉圖像輸入{xk}都在特征嵌入模塊通過CNN進(jìn)行處理了,然后生成一組特征向量{fk}。然后這些特征將被傳送給聚合模塊,以便于生成一個(gè)單一的128維的向量r1,并以此作為輸入人臉的表征。之后該表征將被用于人臉識(shí)別。
特征嵌入模塊(Feature embedding module)是一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)(CNN),它的作用是將每張人臉圖像映射到一個(gè)特征向量。而另一個(gè)模塊是聚合模塊(Aggregation module),它由兩個(gè)注意力塊(Attention blocks)組成,注意力塊能夠自適應(yīng)地聚合特征向量,以便于在兩個(gè)塊所跨越的凸包中形成單個(gè)特征。同時(shí)因?yàn)樽⒁饬C(jī)制的引入,圖像順序?qū)⒉挥绊懢酆系慕Y(jié)果。該論文所提出的NAN受到標(biāo)準(zhǔn)分類或驗(yàn)證損失的訓(xùn)練,并且沒有任何額外的監(jiān)督信號(hào)。然后還發(fā)現(xiàn)了,NAN能夠自動(dòng)學(xué)會(huì)偏向采用高質(zhì)量的人臉圖像而排斥低質(zhì)量的人臉,比如模糊、遮擋和曝光不當(dāng)?shù)拿娌繄D像。通過在IJB-A、YouTuBe Face、Celebrity-1000這三個(gè)視頻人臉識(shí)別基準(zhǔn)上的實(shí)驗(yàn)表明,NAN始終優(yōu)于樸素聚合方法(Naive aggregation methods),并且也刷新了準(zhǔn)確率。
Via CVPR 2017,雷鋒網(wǎng)整理
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章