丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給不靈叔
發(fā)送

1

基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)

本文作者: 不靈叔 2017-12-20 18:55
導(dǎo)語(yǔ):希望能夠幫助剛進(jìn)入這個(gè)領(lǐng)域的人快速了解近幾年的工作。

雷鋒網(wǎng) AI 科技評(píng)論按:本文作者羅浩為浙江大學(xué)博士生,本文為羅浩為雷鋒網(wǎng) AI 科技評(píng)論撰寫(xiě)的獨(dú)家稿件,未經(jīng)許可不得轉(zhuǎn)載。

前言:行人重識(shí)別(Person Re-identification)也稱行人再識(shí)別,本文簡(jiǎn)稱為ReID,是利用計(jì)算機(jī)視覺(jué)技術(shù)判斷圖像或者視頻序列中是否存在特定行人的技術(shù)。廣泛被認(rèn)為是一個(gè)圖像檢索的子問(wèn)題。給定一個(gè)監(jiān)控行人圖像,檢索跨設(shè)備下的該行人圖像。

在監(jiān)控視頻中,由于相機(jī)分辨率和拍攝角度的緣故,通常無(wú)法得到質(zhì)量非常高的人臉圖片。當(dāng)人臉識(shí)別失效的情況下,ReID就成為了一個(gè)非常重要的替代品技術(shù)。ReID有一個(gè)非常重要的特性就是跨攝像頭,所以學(xué)術(shù)論文里評(píng)價(jià)性能的時(shí)候,是要檢索出不同攝像頭下的相同行人圖片。ReID已經(jīng)在學(xué)術(shù)界研究多年,但直到最近幾年隨著深度學(xué)習(xí)的發(fā)展,才取得了非常巨大的突破。因此本文介紹一些近幾年基于深度學(xué)習(xí)的ReID工作,由于精力有限并不能涵蓋所有工作,只能介紹幾篇代表性的工作。按照個(gè)人的習(xí)慣,我把這些方法分為以下幾類:

  1. 基于表征學(xué)習(xí)的ReID方法

  2. 基于度量學(xué)習(xí)的ReID方法

  3. 基于局部特征的ReID方法

  4. 基于視頻序列的ReID方法

  5. 基于GAN造圖的ReID方法

1、基于表征學(xué)習(xí)的ReID方法

基于表征學(xué)習(xí)(Representation learning)的方法是一類非常常用的行人重識(shí)別方法[1-4]。這主要得益于深度學(xué)習(xí),尤其是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network, CNN)的快速發(fā)展。由于CNN可以自動(dòng)從原始的圖像數(shù)據(jù)中根據(jù)任務(wù)需求自動(dòng)提取出表征特征(Representation),所以有些研究者把行人重識(shí)別問(wèn)題看做分類(Classification/Identification)問(wèn)題或者驗(yàn)證(Verification)問(wèn)題:(1)分類問(wèn)題是指利用行人的ID或者屬性等作為訓(xùn)練標(biāo)簽來(lái)訓(xùn)練模型;(2)驗(yàn)證問(wèn)題是指輸入一對(duì)(兩張)行人圖片,讓網(wǎng)絡(luò)來(lái)學(xué)習(xí)這兩張圖片是否屬于同一個(gè)行人。

論文[1]利用Classification/Identification loss和verification loss來(lái)訓(xùn)練網(wǎng)絡(luò),其網(wǎng)絡(luò)示意圖如下圖所示。網(wǎng)絡(luò)輸入為若干對(duì)行人圖片,包括分類子網(wǎng)絡(luò)(Classification Subnet)和驗(yàn)證子網(wǎng)絡(luò)(Verification Subnet)。分類子網(wǎng)絡(luò)對(duì)圖片進(jìn)行ID預(yù)測(cè),根據(jù)預(yù)測(cè)的ID來(lái)計(jì)算分類誤差損失。驗(yàn)證子網(wǎng)絡(luò)融合兩張圖片的特征,判斷這兩張圖片是否屬于同一個(gè)行人,該子網(wǎng)絡(luò)實(shí)質(zhì)上等于一個(gè)二分類網(wǎng)絡(luò)。經(jīng)過(guò)足夠數(shù)據(jù)的訓(xùn)練,再次輸入一張測(cè)試圖片,網(wǎng)絡(luò)將自動(dòng)提取出一個(gè)特征,這個(gè)特征用于行人重識(shí)別任務(wù)。

基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)

但是也有論文認(rèn)為光靠行人的ID信息不足以學(xué)習(xí)出一個(gè)泛化能力足夠強(qiáng)的模型。在這些工作中,它們額外標(biāo)注了行人圖片的屬性特征,例如性別、頭發(fā)、衣著等屬性。通過(guò)引入行人屬性標(biāo)簽,模型不但要準(zhǔn)確地預(yù)測(cè)出行人ID,還要預(yù)測(cè)出各項(xiàng)正確的行人屬性,這大大增加了模型的泛化能力,多數(shù)論文也顯示這種方法是有效的。下圖是其中一個(gè)示例[2],從圖中可以看出,網(wǎng)絡(luò)輸出的特征不僅用于預(yù)測(cè)行人的ID信息,還用于預(yù)測(cè)各項(xiàng)行人屬性。通過(guò)結(jié)合ID損失和屬性損失能夠提高網(wǎng)絡(luò)的泛化能力。

基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)

如今依然有大量工作是基于表征學(xué)習(xí),表征學(xué)習(xí)也成為了ReID領(lǐng)域的一個(gè)非常重要的baseline,并且表征學(xué)習(xí)的方法比較魯棒,訓(xùn)練比較穩(wěn)定,結(jié)果也比較容易復(fù)現(xiàn)。但是個(gè)人的實(shí)際經(jīng)驗(yàn)感覺(jué)表征學(xué)習(xí)容易在數(shù)據(jù)集的domain上過(guò)擬合,并且當(dāng)訓(xùn)練ID增加到一定程度的時(shí)候會(huì)顯得比較乏力。

2、基于度量學(xué)習(xí)的ReID方法

度量學(xué)習(xí)(Metric learning)是廣泛用于圖像檢索利于的一種方法。不同于表征學(xué)習(xí),度量學(xué)習(xí)旨在通過(guò)網(wǎng)絡(luò)學(xué)習(xí)出兩張圖片的相似度。在行人重識(shí)別問(wèn)題上,具體為同一行人的不同圖片相似度大于不同行人的不同圖片。最后網(wǎng)絡(luò)的損失函數(shù)使得相同行人圖片(正樣本對(duì))的距離盡可能小,不同行人圖片(負(fù)樣本對(duì))的距離盡可能大。常用的度量學(xué)習(xí)損失方法有對(duì)比損失(Contrastive loss)[5]、三元組損失(Triplet loss)[6-8]、 四元組損失(Quadruplet loss)[9]、難樣本采樣三元組損失(Triplet hard loss with batch hard mining, TriHard loss)[10]、邊界挖掘損失(Margin sample mining loss, MSML)[11]。首先,假如有兩張輸入圖片基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上),通過(guò)網(wǎng)絡(luò)的前饋我們可以得到它們歸一化后的特征向量基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)。我們定義這兩張圖片特征向量的歐式距離為:

基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)

(1)對(duì)比損失(Contrastive loss)

基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)

對(duì)比損失用于訓(xùn)練孿生網(wǎng)絡(luò)(Siamese network),其結(jié)構(gòu)圖如上圖所示。孿生網(wǎng)絡(luò)的輸入為一對(duì)(兩張)圖片基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上),這兩張圖片可以為同一行人,也可以為不同行人。每一對(duì)訓(xùn)練圖片都有一個(gè)標(biāo)簽基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上),其中基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)表示兩張圖片屬于同一個(gè)行人(正樣本對(duì)),反之基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)表示它們屬于不同行人(負(fù)樣本對(duì))。之后,對(duì)比損失函數(shù)寫(xiě)作:

基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)

其中基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)表示 max(z,0) ,α 是根據(jù)實(shí)際需求設(shè)計(jì)的閾值參數(shù)。為了最小化損失函數(shù),當(dāng)網(wǎng)絡(luò)輸入一對(duì)正樣本對(duì),基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)會(huì)逐漸變小,即相同ID的行人圖片會(huì)逐漸在特征空間形成聚類。反之,當(dāng)網(wǎng)絡(luò)輸入一對(duì)負(fù)樣本對(duì)時(shí),基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)會(huì)逐漸變大直到超過(guò)設(shè)定的 α 。通過(guò)最小化基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上),最后可以使得正樣本對(duì)之間的距離逐漸變下,負(fù)樣本對(duì)之間的距離逐漸變大,從而滿足行人重識(shí)別任務(wù)的需要。

(2)三元組損失(Triplet loss)

三元組損失是一種被廣泛應(yīng)用的度量學(xué)習(xí)損失,之后的大量度量學(xué)習(xí)方法也是基于三元組損失演變而來(lái)。顧名思義,三元組損失需要三張輸入圖片。和對(duì)比損失不同,一個(gè)輸入的三元組(Triplet)包括一對(duì)正樣本對(duì)和一對(duì)負(fù)樣本對(duì)。三張圖片分別命名為固定圖片(Anchor) a ,正樣本圖片(Positive)p和負(fù)樣本圖片(Negative) n 。圖片 a 和圖片 p 為一對(duì)正樣本對(duì),圖片 a 和圖片 n 為一對(duì)負(fù)樣本對(duì)。則三元組損失表示為:

基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)

如下圖所示,三元組可以拉近正樣本對(duì)之間的距離,推開(kāi)負(fù)樣本對(duì)之間的距離,最后使得相同ID的行人圖片在特征空間里形成聚類,達(dá)到行人重識(shí)別的目的。

基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)

論文[8]認(rèn)為原版的Triplet loss只考慮正負(fù)樣本對(duì)之間的相對(duì)距離,而并沒(méi)有考慮正樣本對(duì)之間的絕對(duì)距離,為此提出改進(jìn)三元組損失(Improved triplet loss):

基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)

公式添加項(xiàng)基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上),保證網(wǎng)絡(luò)不僅能夠在特征空間把正負(fù)樣本推開(kāi),也能保證正樣本對(duì)之間的距離很近。

(3) 四元組損失(Quadruplet loss)

基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)

四元組損失是三元組損失的另一個(gè)改進(jìn)版本。顧名思義,四元組(Quadruplet)需要四張輸入圖片,和三元組不同的是多了一張負(fù)樣本圖片。即四張圖片為固定圖片(Anchor) a ,正樣本圖片(Positive) p  ,負(fù)樣本圖片1(Negative1) n1 和負(fù)樣本圖片2(Negative2) n2 。其中 n1 和 n2 是兩張不同行人ID的圖片,其結(jié)構(gòu)如上圖所示。則四元組損失表示為:

基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)

其中α和β是手動(dòng)設(shè)置的正常數(shù),通常設(shè)置β小于α,前一項(xiàng)稱為強(qiáng)推動(dòng),后一項(xiàng)稱為弱推動(dòng)。相比于三元組損失只考慮正負(fù)樣本間的相對(duì)距離,四元組添加的第二項(xiàng)不共享ID,所以考慮的是正負(fù)樣本間的絕對(duì)距離。因此,四元組損失通常能讓模型學(xué)習(xí)到更好的表征。

(4)難樣本采樣三元組損失(Triplet loss with batch hard mining, TriHard loss)

難樣采樣三元組損失(本文之后用TriHard損失表示)是三元組損失的改進(jìn)版。傳統(tǒng)的三元組隨機(jī)從訓(xùn)練數(shù)據(jù)中抽樣三張圖片,這樣的做法雖然比較簡(jiǎn)單,但是抽樣出來(lái)的大部分都是簡(jiǎn)單易區(qū)分的樣本對(duì)。如果大量訓(xùn)練的樣本對(duì)都是簡(jiǎn)單的樣本對(duì),那么這是不利于網(wǎng)絡(luò)學(xué)習(xí)到更好的表征。大量論文發(fā)現(xiàn)用更難的樣本去訓(xùn)練網(wǎng)絡(luò)能夠提高網(wǎng)絡(luò)的泛化能力,而采樣難樣本對(duì)的方法很多。論文[10]提出了一種基于訓(xùn)練批量(Batch)的在線難樣本采樣方法——TriHard Loss。

TriHard損失的核心思想是:對(duì)于每一個(gè)訓(xùn)練batch,隨機(jī)挑選 P 個(gè)ID的行人,每個(gè)行人隨機(jī)挑選 K 張不同的圖片,即一個(gè)batch含有 P×K 張圖片。之后對(duì)于batch中的每一張圖片 a ,我們可以挑選一個(gè)最難的正樣本和一個(gè)最難的負(fù)樣本和 a 組成一個(gè)三元組。

首先我們定義 a 和為相同ID的圖片集為 A,剩下不同ID的圖片圖片集為 B,則TriHard損失表示為:

基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)

其中 α 是人為設(shè)定的閾值參數(shù)。TriHard損失會(huì)計(jì)算 a 和batch中的每一張圖片在特征空間的歐式距離,然后選出與 a 距離最遠(yuǎn)(最不像)的正樣本 p 和距離最近(最像)的負(fù)樣本 n 來(lái)計(jì)算三元組損失。通常TriHard損失效果比傳統(tǒng)的三元組損失要好。

(5)邊界挖掘損失(Margin sample mining loss, MSML)

邊界樣本挖掘損失(MSML)是一種引入難樣本采樣思想的度量學(xué)習(xí)方法。三元組損失只考慮了正負(fù)樣本對(duì)之間的相對(duì)距離。為了引入正負(fù)樣本對(duì)之間的絕對(duì)距離,四元組損失加入一張負(fù)樣本組成了四元組。四元組損失也定義為:

基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)

假如我們忽視參數(shù) α 和 β 的影響,我們可以用一種更加通用的形式表示四元組損失:

基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)

其中 m 和 n 是一對(duì)負(fù)樣本對(duì),m 和 a 既可以是一對(duì)正樣本對(duì)也可以是一對(duì)負(fù)樣本對(duì)。之后把TriHard loss的難樣本挖掘思想引入進(jìn)來(lái),便可以得到:

基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)

其中 a,p,m,n 均是batch中的圖片,a,p 是batch中最不像的正樣本對(duì),m,n 是batch 中最像的負(fù)樣本對(duì),a,m 皆可以是正樣本對(duì)也可以是負(fù)樣本對(duì)。概括而言TriHard損失是針對(duì)batch中的每一張圖片都挑選了一個(gè)三元組,而MSML損失只挑選出最難的一個(gè)正樣本對(duì)和最難的一個(gè)負(fù)樣本對(duì)計(jì)算損失。所以MSML是比TriHard更難的一種難樣本采樣,此外基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)可以看作是正樣本對(duì)距離的上界,基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)可以看作是負(fù)樣本對(duì)的下界。MSML是為了把正負(fù)樣本對(duì)的邊界給推開(kāi),因此命名為邊界樣本挖掘損失??偟母爬ǎ琈SML是同時(shí)兼顧相對(duì)距離和絕對(duì)距離并引入了難樣本采樣思想的度量學(xué)習(xí)方法。其演變思想如下圖:

基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)


(6)各種loss的性能對(duì)比

在論文[11]之中,對(duì)上面提到的主要損失函數(shù)在盡可能公平的實(shí)驗(yàn)的條件下進(jìn)行性能對(duì)比,實(shí)驗(yàn)結(jié)果如下表所示。作為一個(gè)參考

基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)


(未完待續(xù))

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(上)

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)