丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

ICCV 2017 spotlight論文解讀:如何提高行人再識(shí)別的準(zhǔn)確率

本文作者: 汪思穎 2017-09-29 18:49 專(zhuān)題:ICCV 2017
導(dǎo)語(yǔ):與人臉識(shí)別相比,行人再識(shí)別在采集圖像時(shí)不需要行人主動(dòng)配合,在安防等領(lǐng)域具有極大的應(yīng)用潛力。

雷鋒網(wǎng) AI科技評(píng)論按,本文作者孫奕帆,本文首發(fā)于知乎專(zhuān)欄行人重識(shí)別,雷鋒網(wǎng) AI科技評(píng)論獲其授權(quán)轉(zhuǎn)載。

文章鏈接: arXiv:1703.05693(https://arxiv.org/abs/1703.05693)

代碼鏈接:syfafterzy/SVDNet-for-Pedestrian-Retrieval(https://github.com/syfafterzy/SVDNet-for-Pedestrian-Retrieval)

一、背景簡(jiǎn)介

近年來(lái),行人再識(shí)別問(wèn)題(Person-reID)研究熱度逐漸上升。與人臉識(shí)別相比,它在采集圖像時(shí)不需要行人主動(dòng)配合,在安防等領(lǐng)域具有極大的應(yīng)用潛力。基于深度學(xué)習(xí)的行人再識(shí)別方法,在近幾年快速進(jìn)步,在絕大部分公開(kāi)數(shù)據(jù)集上,深度學(xué)習(xí)特征均超過(guò)了手工設(shè)計(jì)特征。這篇文章的工作主要圍繞利用如何更好地學(xué)習(xí)的深度特征,提高行人再識(shí)別的準(zhǔn)確率進(jìn)行。然而,這篇文章實(shí)際上沒(méi)有具體針對(duì)行人再識(shí)別的特有問(wèn)題進(jìn)行分析、優(yōu)化,筆者認(rèn)為該方法在小數(shù)據(jù)集問(wèn)題上,該方法具有一般性意義,并且,該方法對(duì)CNN特征的物理意義開(kāi)展了一些有趣的思考。

二、Motivation

首先需要說(shuō)明的是,SVDNet基于這樣一個(gè)對(duì)CNN權(quán)向量的簡(jiǎn)單解讀:假設(shè)CNN的一層網(wǎng)絡(luò),其輸入是I,輸出是O,權(quán)矩陣是W,那么O=W'*I運(yùn)算是在做線性投影,而W中所含的權(quán)向量則是一組投影基向量。當(dāng)訓(xùn)練一個(gè)用于提取re-ID問(wèn)題中行人特征的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)時(shí),與在其它所有典型的深度學(xué)習(xí)訓(xùn)練一樣,通常所學(xué)到的權(quán)向量是“雜亂無(wú)章”的,這種雜亂無(wú)章體現(xiàn)在,網(wǎng)絡(luò)同一層中的權(quán)向量,通常是存在較強(qiáng)的相關(guān)性(注意不是線性相關(guān)linear dependent)。這種相關(guān)性,對(duì)于特征表達(dá)可能會(huì)造成不必要甚至是非常有害的冗余。例如下圖中,假設(shè)網(wǎng)絡(luò)用于提取特征的特征層含有3個(gè)權(quán)向量,紅色和粉色所代表的的權(quán)向量幾何上更靠近,而藍(lán)色的權(quán)向量相對(duì)較遠(yuǎn),那么,當(dāng)一個(gè)行人圖像進(jìn)入網(wǎng)絡(luò)中后,它會(huì)最終投影到這3個(gè)權(quán)向量上,形成一個(gè)3維的特征,而在紅色和粉色上的投影結(jié)果將會(huì)非常接近。這就使得,在藍(lán)色上的投影結(jié)果相較之下無(wú)足輕重了,很有可能造成一些誤判。

ICCV 2017 spotlight論文解讀:如何提高行人再識(shí)別的準(zhǔn)確率

因此,我們希望對(duì)于特征表達(dá)層(該層的輸出作為行人圖像的特征),它的權(quán)向量是正交的。這里說(shuō)遠(yuǎn)一點(diǎn)關(guān)于深度學(xué)習(xí)中的正交約束。其實(shí),正交約束在深度學(xué)習(xí)中近幾年并不少見(jiàn)。例如ICLR2016年的Reducing Overfitting in Deep Networks by Decorrelating Representations(arXiv:1511.06068),以及同樣ICCV2017年的一篇工作arXiv:1511.06068。此外,諸如whitened network,以及ICML2017年的generalized whitened network,也都可以認(rèn)為利用了正交化在深度學(xué)習(xí)種可能帶來(lái)的好處。不過(guò),值得注意的是,這些工作都是讓把feature不同維度的值當(dāng)成一個(gè)變量,希望不同維度上的變量是相互獨(dú)立的。而SVDNet這篇工作避開(kāi)了這個(gè)做法,希望權(quán)向量是正交的。在paper中,出于嚴(yán)謹(jǐn)?shù)目紤],沒(méi)有解釋這兩種做法的差異。筆者認(rèn)為,這樣做實(shí)際上是有巧妙意義的。受限于深度學(xué)習(xí)的訓(xùn)練方式,對(duì)特征施加正交約束時(shí),只能在一個(gè)minibatch里去求feature的協(xié)方差矩陣,并要求該矩陣是對(duì)角陣,這種做法本身是無(wú)奈之舉。而SVDNet這種做法避開(kāi)了這個(gè)困難,它其實(shí)借助了這樣一個(gè)思想:每一個(gè)權(quán)向量,都是相應(yīng)特征相應(yīng)維度上的模板(exemplar)或者代理(agent)。這種解讀在最近的很多工作中都有所體現(xiàn)。

三、訓(xùn)練方法RRI

——如何在CNN訓(xùn)練中,對(duì)權(quán)向量施加正交約束

先說(shuō)怎么做的,后面再解釋為什么這么做。

做法非常簡(jiǎn)單,分為3步,稱(chēng)之為Restraint and Relaxation Iteration (RRI):

1、去相關(guān)——每次訓(xùn)練模型收斂之后,對(duì)特征表達(dá)層的權(quán)矩陣W進(jìn)行奇異值分解,即W=USV',然后,用US去取代原來(lái)的W,這時(shí),W變成了一個(gè)正交陣(每個(gè)權(quán)向量彼此正交),且新的權(quán)向量是原來(lái)權(quán)矩陣WW'的本征向量。經(jīng)過(guò)這樣一次去相關(guān)之后,原本已經(jīng)收斂的模型偏離原先的局部最優(yōu)解、在訓(xùn)練集上的分類(lèi)損失變大了。

2、緊張訓(xùn)練(Restraint)——固定住步驟1中的W不更新,學(xué)習(xí)其它層參數(shù),直至網(wǎng)絡(luò)重新收斂。需要注意的是,在這種情況下,網(wǎng)絡(luò)會(huì)收斂到一個(gè)次優(yōu)解:因?yàn)樗幸粚拥腤是受限制。因此,在接下來(lái),我們會(huì)取消這個(gè)限制,繼續(xù)訓(xùn)練。

3、松弛訓(xùn)練(Relaxation)——在步驟2之后,取消W固定的限制,這個(gè)時(shí)候,網(wǎng)絡(luò)會(huì)發(fā)現(xiàn)對(duì)于擬合訓(xùn)練樣本會(huì)這個(gè)目標(biāo)會(huì)有一個(gè)更好的解:請(qǐng)注意,僅僅是針對(duì)擬合訓(xùn)練樣本這個(gè)目標(biāo)。我們實(shí)驗(yàn)發(fā)現(xiàn),這個(gè)模型使用在訓(xùn)練集上(包含全新的ID)時(shí),它的泛化能力是相對(duì)較弱的。

而在步驟3之后,W里的權(quán)向量重新變的相關(guān)起來(lái)。因此,我們把這3步迭代起來(lái),形成RRI,直最終收斂。

四、RRI中發(fā)生了什么?

在RRI中,每個(gè)Restraint階段后,權(quán)向量被去相關(guān)了、W變成了正交矩陣、ReID的準(zhǔn)確度提升了;而在每個(gè)Relaxation階段后,權(quán)向量重新相關(guān)起來(lái),ReID的準(zhǔn)確度停滯甚至略微降低(相較于上一個(gè)Restraint)。但是,比較Relaxation階段,我們可以發(fā)現(xiàn),W正交度S(W)在提升,而Reid的準(zhǔn)確度也在提升,直到二者幾乎同時(shí)達(dá)到了收斂狀態(tài)。見(jiàn)下圖:

ICCV 2017 spotlight論文解讀:如何提高行人再識(shí)別的準(zhǔn)確率

上圖是本文最重要、最有趣的一張圖,它對(duì)SVDNet這個(gè)方法的原理起到了一種“知其然、知其所以然“意義上的證明。圖中S(W)——用來(lái)衡量W正交度的變量定義本文不再敘述,非常簡(jiǎn)單直觀,關(guān)心的同學(xué)可以去查看論文。有趣的地方在于:緊張訓(xùn)練階段,reID性能提升;而放松訓(xùn)練階段,reID性能降低。這似乎與我們?nèi)祟?lèi)的學(xué)習(xí)規(guī)律類(lèi)似:提倡張弛結(jié)合,緊張時(shí)進(jìn)步,而交替地放松,是為了積累。

五、性能

SVDNet 方法的性能,在2017年初接近當(dāng)時(shí)的state of the art。而且,為了方法的純粹性,SVDNet沒(méi)有采用除了“鏡像”之外的任何圖像增強(qiáng),輸入圖像也是采用baseline模型的默認(rèn)尺寸。具體性能比較見(jiàn)論文,這里僅展示一下在market-1501數(shù)據(jù)集上的對(duì)比。

ICCV 2017 spotlight論文解讀:如何提高行人再識(shí)別的準(zhǔn)確率

采取時(shí)下常用的一些預(yù)處理及數(shù)據(jù)增強(qiáng)后,SVDNet水平進(jìn)一步提高。例如在market-1501上,在采用256??128這樣的圖像尺寸之后,resnet-backboned SVDNet能夠達(dá)到約84+%的rank-1準(zhǔn)確度、65+%的mAP。進(jìn)一步采用random crop數(shù)據(jù)增強(qiáng)后,能夠達(dá)到88% R-1 accuracy和 68%的mAP。在DukeMTMC-reID數(shù)據(jù)集上,SVDNet的表現(xiàn)相對(duì)更為搶眼。

另外,值得一提的是,SVDNet在caffenet這種老古董網(wǎng)絡(luò)結(jié)構(gòu)上也取得非常不錯(cuò)的性能。這個(gè)特點(diǎn)在其他方法中通常是難以做到的(當(dāng)然,知識(shí)蒸餾等方法或許也能達(dá)到)。

六、有趣的關(guān)鍵

——為什么用SVD來(lái)對(duì)W去相關(guān)

關(guān)于為什么用SVD來(lái)對(duì)W進(jìn)行去相關(guān),文中簡(jiǎn)單做了一些證明:任意兩個(gè)樣本x1和x2,給定它們?cè)贓igenLayer之前的特征h,考察它們?cè)诰€性投影后的距離,用W(=USV‘)和US作為線性投影層的權(quán)矩陣,兩種情況下,樣本間的距離是嚴(yán)格保持不變的。而用其它一些去相關(guān)方法,樣本間的距離發(fā)生改變,且實(shí)驗(yàn)驗(yàn)證均降低了“去相關(guān)操作”后的reid性能。詳細(xì)實(shí)驗(yàn)和推導(dǎo)證明見(jiàn)論文。

文中關(guān)于上述保距去相關(guān)的證明公式非常明了,然而,“想”一個(gè)做法比“證明”一個(gè)做法遠(yuǎn)遠(yuǎn)要難的多。作者這個(gè)做法其實(shí)最早來(lái)自于一個(gè)直觀解讀:CNN的每個(gè)線性層把輸入投影到了新的特征空間,CNN在訓(xùn)練過(guò)程中,學(xué)到了很有鑒別力的投影基向量,也就是W中的各個(gè)權(quán)向量。以及一個(gè)思考:如果CNN告訴我們,一組權(quán)向量非常好,但是,CNN有點(diǎn)語(yǔ)無(wú)倫次、重復(fù)累贅,能不能讓CNN清晰地告訴我們,這組權(quán)向量所代表的那些投影基向量,其等效的本質(zhì)(正交基)是什么?

舉個(gè)極端的例子,假設(shè)某一層的權(quán)向量有3個(gè),并且是是2維的,分別是v1=(0,1),v2=(0,1),v3=(1,0),顯然,這個(gè)權(quán)向量結(jié)果是不合理的,因?yàn)榭隙ㄖ恍枰?個(gè)權(quán)向量就足夠了,那么,問(wèn)題來(lái)了,CNN認(rèn)為(0,1)和(1,0)兩個(gè)投影方向上的結(jié)果是否同樣重要呢?我們是否可以簡(jiǎn)單地保留v1和v3,直接丟掉v2呢?我們直覺(jué)上會(huì)覺(jué)得,不是這樣的,CNN試圖告訴我們,在(0,1)上的投影結(jié)果更重要,SVDNet中的這個(gè)去相關(guān)方法,就是將CNN學(xué)到的投影向量轉(zhuǎn)換到一組正交基上、并完全尊重、采納CNN學(xué)到的知識(shí)本質(zhì)的方法。

PCA代替SVD,會(huì)更好嗎?

關(guān)于SVD去相關(guān),還有另一個(gè)有趣的討論,是在paper 得到初審結(jié)果之后,一位審稿人提出的,而這個(gè)問(wèn)題,也被不少讀者提出:那就是,如果對(duì)W進(jìn)行PCA,也能得到一個(gè)正交的矩陣,而且在其它數(shù)據(jù)處理的地方,經(jīng)驗(yàn)通常是:PCA總是優(yōu)于SVD。那么,對(duì)W進(jìn)行PCA到底行不行?用W進(jìn)行PCA會(huì)不會(huì)更好?筆者認(rèn)為這是一個(gè)非常棒的問(wèn)題。

首先,用PCA對(duì)權(quán)向量進(jìn)行去相關(guān),本身是完全可以的,正如文中對(duì)比的QR分解等方法一樣。而且PCA去相關(guān),同樣可以嵌入到RRI之中,不斷提高SVDNet的性能。筆者在rebuttal中,做了實(shí)驗(yàn),用PCA代替SVD,能夠獲得僅僅輕微低于SVDNet方法的性能。但是,大家應(yīng)該注意到,PCA和SVD雖然數(shù)學(xué)意義非常不同,但是,二者在具體運(yùn)算上,是很相似的:PCA多一個(gè)0-均值化運(yùn)算。而實(shí)際上,權(quán)向量本身是非常接近0均值的,因此,兩種方法在最終效果上比較接近,其實(shí)是非常自然的。

然而,筆者還想指出,在SVDNet的去相關(guān)操作中,只有使用SVD是嚴(yán)格的、具有數(shù)學(xué)意義的,而PCA不是。首先,簡(jiǎn)單地來(lái)看文中的公式:用US去替代W是保證替換權(quán)矩陣后、任意兩個(gè)樣本的距離不發(fā)生改變,因此保留了CNN原有的鑒別能力,這是非常嚴(yán)格的。更重要的是,PCA和SVD在去相關(guān)時(shí)的數(shù)學(xué)意義完全不同,看如下的示意圖:

ICCV 2017 spotlight論文解讀:如何提高行人再識(shí)別的準(zhǔn)確率

假設(shè)CNN學(xué)到了一個(gè)2X2的權(quán)矩陣,即有2個(gè)權(quán)向量,分別是W1和W2?,F(xiàn)在,我們分別用SVD和PCA對(duì)W這個(gè)矩陣進(jìn)行處理,SVD會(huì)得到左邊所示的兩個(gè)綠色正交向量S1和S2,S1方向上的投影結(jié)果將會(huì)被乘以相對(duì)較大的權(quán)系數(shù);PCA則會(huì)得到右圖所示的兩個(gè)紅色正交向量(實(shí)際上,P1的向量長(zhǎng)度會(huì)是0,即P1方向上的投影結(jié)果無(wú)足輕重)。在這個(gè)示意圖中,顯然,PCA是不合理的:如果CNN認(rèn)為黑色的W1和W2是重要的投影方向,那么,直觀上我們也能感受到,S1(或者P1)方向上的投影結(jié)果將是非常重要的。而且,PCA在得到P1和P2時(shí),實(shí)際上不是把W1和W2當(dāng)成兩個(gè)向量來(lái)處理。PCA實(shí)際上是把W1和W2當(dāng)成兩個(gè)點(diǎn)的坐標(biāo),求這兩個(gè)點(diǎn)散布最大的方向(P2>P1),這樣做是缺乏數(shù)學(xué)意義的。

七、另一個(gè)直觀解讀

本文對(duì)CNN得權(quán)向量,除了做空間上的投影解讀外,還暗示了一種解讀,在文中受篇幅限制未能展示,那就是——權(quán)向量實(shí)際上是用于產(chǎn)生特征的模板。以caffenet為例,當(dāng)我們采用FC7的輸出作為特征時(shí),實(shí)際上是在拿FC6的特征去與FC7的4096個(gè)模板進(jìn)行相似性比較(向量?jī)?nèi)積運(yùn)算),并將4096個(gè)相似值作為最終的特征。在這個(gè)意義上,SVDNet可以認(rèn)為是讓獲取特征的模板變得更為豐富。利用Yosinski在2015年ICML[1311.2901] Visualizing and Understanding Convolutional Networks中提供的深度特征可視化工具,我們可以對(duì)最大激活指定神經(jīng)元的輸入進(jìn)行可視化,從何直觀感受一下這些潛在模板的真面目。

ICCV 2017 spotlight論文解讀:如何提高行人再識(shí)別的準(zhǔn)確率

上圖中,第一行展現(xiàn)的是5個(gè)高度相關(guān)的權(quán)向量所代表的的神經(jīng)元所對(duì)應(yīng)的模板圖像,第二行展現(xiàn)的是正常訓(xùn)練方法中,挑選出的5個(gè)不相關(guān)權(quán)向量所代表的神經(jīng)元所對(duì)應(yīng)的的模板圖像,第三行則是通過(guò)SVDNet訓(xùn)練方法后,任意的5個(gè)權(quán)向量對(duì)應(yīng)的模板圖像。一個(gè)直觀感受是:在baseline方法中,隱含了大量高度相似的模板圖像,而經(jīng)過(guò)SVDNet之后,所有的模板變得不相像,因此特征更加豐富了起來(lái)。

八、在其它視覺(jué)任務(wù)上的推廣

到這里,大家應(yīng)該同意,SVDNet并沒(méi)有專(zhuān)門(mén)針對(duì)行人的固有特點(diǎn)做量身定制的分析與優(yōu)化。從上圖,我們也可以直觀感受到,SVDNet訓(xùn)練得到的神經(jīng)元更加豐富,達(dá)到了的降低過(guò)擬合的作用。這種機(jī)制在其它視覺(jué)任務(wù)上或許也有一定的效果。我們還在探究之中。從目前的實(shí)驗(yàn)結(jié)果來(lái)看,SVDNet在分類(lèi)任務(wù)上有一定的提高效果。在Cifar-10分類(lèi)任務(wù)中,用resnet-20做baseline,rank-1 accuracy從91.8%提高到了93.5%。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

ICCV 2017 spotlight論文解讀:如何提高行人再識(shí)別的準(zhǔn)確率

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)