丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給深度學(xué)習(xí)大講堂
發(fā)送

1

深度學(xué)習(xí)變革視覺實(shí)例搜索

本文作者: 深度學(xué)習(xí)大講堂 2016-08-23 09:44
導(dǎo)語:深度學(xué)習(xí)在各種計(jì)算機(jī)視覺任務(wù)上都取得了重大的突破,近日在視覺搜索實(shí)例方面也取得了較大的進(jìn)展。

雷鋒網(wǎng)按:本文作者鄧啟力,哈爾濱工業(yè)大學(xué)深圳研究生院計(jì)算機(jī)系碩士研究生二年級,導(dǎo)師為“鵬城學(xué)者”徐勇教授。研究興趣為深度學(xué)習(xí)與計(jì)算機(jī)視覺。曾獲2015年首屆阿里巴巴大規(guī)模圖像搜索大賽二等獎,總排名第三名。

摘要

近些年,深度學(xué)習(xí)在各種計(jì)算機(jī)視覺任務(wù)上都取得了重大的突破,其中一個(gè)重要因素就是其強(qiáng)大的非線性表示能力,能夠理解圖像更深層次的信息。本文對基于深度學(xué)習(xí)的視覺實(shí)例搜索方法做了簡單的總結(jié)和概括,希望能給讀者們帶來啟發(fā)。

前言

給定一張包含某個(gè)物體的查詢圖片,視覺實(shí)例搜索的任務(wù)就是從候選的圖片庫中找到那些與查詢圖片包含相同物體的圖片。與一般的圖像搜索相比,實(shí)例搜索的搜索條件更為苛刻——是否包含相同的物體,如同一款衣服,同一輛車等等。該問題具有非常廣泛的應(yīng)用前景,如商品搜索,車輛搜索和基于圖像的地理位置識別等。舉個(gè)例子,移動商品圖像搜索就是通過分析利用手機(jī)相機(jī)拍攝的商品照片,從商品庫中找到相同或相似的商品。

然而在實(shí)際場景中,由于姿態(tài),光照和背景等干擾因素,所以兩張包含相同物體的圖像往往在外觀上差異很大。從這個(gè)角度來看,視覺實(shí)例搜索的本質(zhì)問題就是應(yīng)該學(xué)習(xí)什么樣的圖像特征從而使得包含相同物體的圖像在特征空間上是相似的。

近些年,深度學(xué)習(xí)在各種計(jì)算機(jī)視覺任務(wù)上都取得了重大的突破,其中就包括視覺實(shí)例搜索任務(wù)。本文主要對基于深度學(xué)習(xí)的實(shí)例搜索算法(下面簡稱為“深度實(shí)例搜索算法”)進(jìn)行剖析和總結(jié),文章分為四個(gè)部分:第一部分總結(jié)了經(jīng)典視覺實(shí)例搜索算法的一般流程;第二部分和第三部分分別從兩個(gè)方面去介紹近些年主要的深度實(shí)例搜索算法;端到端的特征學(xué)習(xí)方法和基于CNN特征的特征編碼方法;第四部分將通過總結(jié)在2015年首屆阿里巴巴大規(guī)模圖像大賽(Alibaba Large-scale Image Search Challenge, ALISC)中出現(xiàn)的相關(guān)方法,介紹一些實(shí)踐中可以提高實(shí)例搜索性能的技巧和方法。

經(jīng)典視覺實(shí)例搜索算法的一般流程

在深度學(xué)習(xí)流行之前,典型的實(shí)例搜索算法一般分為三個(gè)階段:首先在給定的圖像密集地提取局部不變特征,然后將這些局部不變特征進(jìn)一步地編碼為一個(gè)緊湊的圖像表示,最后將查詢圖像與候選圖像庫中的圖像進(jìn)行相似度計(jì)算(基于第二步得到的圖像表示),找到那些屬于同一實(shí)例的圖片。

1.局部不變特征。局部不變特征的特點(diǎn)就是提取圖像局部區(qū)域的細(xì)節(jié)信息,不關(guān)心全局信息,并對該局部區(qū)域內(nèi)的光線變化、幾何變換具有一定的不變性。這對實(shí)例搜索非常有意義,因?yàn)槟繕?biāo)物體可以伴隨著幾何變換出現(xiàn)圖像中的任何區(qū)域。在早期的工作中,很多實(shí)例搜索方法采用的是SIFT特征。

2. 特征編碼。對局部特征進(jìn)一步地編碼有兩方面的意義:挖掘這些局部特征之間的相關(guān)信息,增強(qiáng)可判別能力;單一緊湊的特征向量更易于實(shí)現(xiàn)索引,提高搜索速度。目前常見的方法有VLAD(vector of locally aggregated descriptors),F(xiàn)isher Vectors,triangular embedding等。在這里,本文簡單地介紹下VLAD方法(在本文后面多次出現(xiàn)):a)VLAD方法首先利用k-means得到包含k個(gè)中心的碼本,然后每個(gè)局部特征被指派給離它最近的中心點(diǎn)(我們將這一步稱為hard-assignment,之后會相關(guān)文章對此進(jìn)行改進(jìn)),最后將這些局部特征與其指派的中心點(diǎn)之間的殘差累和作為最終的圖像表示。從上面可以看出,VLAD方法有無序的特性——不關(guān)心局部特征的空間位置,因此可以進(jìn)一步解耦全局空間信息,對幾何變換具有很好的魯棒性。

3. 相似度計(jì)算。一種直接的做法是根據(jù)距離函數(shù)計(jì)算特征之間的距離,例如歐式距離,余弦距離等。另一種是學(xué)習(xí)相應(yīng)的距離函數(shù),例如LMNN、ITML等度量學(xué)習(xí)方法。

總結(jié):經(jīng)典視覺實(shí)例搜索算法的性能往往受限于hand-crafted特征的表示能力。當(dāng)深度學(xué)習(xí)應(yīng)用在實(shí)例搜索任務(wù)時(shí),主要就是從特征表示入手,即如何提取更加具有判別性的圖像特征

端到端的特征學(xué)習(xí)方法

NetVLAD: CNN architecture for weakly supervised place recognition  (CVPR 2016)

這篇文章是來自于INRIA 的Relja Arandjelovi?等人的工作。該文章關(guān)注實(shí)例搜索的一個(gè)具體應(yīng)用——位置識別。在位置識別問題中,給定一張查詢圖片,通過查詢一個(gè)大規(guī)模的位置標(biāo)記數(shù)據(jù)集,然后使用那些相似的圖片的位置去估計(jì)查詢圖片的位置。作者首先使用Google Street View Time Machine建立了大規(guī)模的位置標(biāo)記數(shù)據(jù)集,隨后提出了一種卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),NetVLAD——將VLAD方法嵌入到CNN網(wǎng)絡(luò)中,并實(shí)現(xiàn)“end-to-end”的學(xué)習(xí)。該方法如下圖所示:

深度學(xué)習(xí)變革視覺實(shí)例搜索

原始的VLAD方法中的hard-assignment操作是不可微的(將每個(gè)局部特征指派給離它最近的中心點(diǎn)),因此不可以直接嵌入到CNN網(wǎng)絡(luò)里,并參與誤差反向傳播。這篇文章的解決方法就是使用softmax函數(shù)將此hard-assignment操作轉(zhuǎn)化為soft-assignment操作——使用1x1卷積和softmax函數(shù)得到該局部特征屬于每個(gè)中心點(diǎn)的概率/權(quán)重,然后將其指派給具有最大的概率/權(quán)重的中心點(diǎn)。因此NetVLAD包含了三個(gè)可以被學(xué)習(xí)參數(shù),,其中是上面1x1卷積的參數(shù),用于預(yù)測soft-assignment,表示為每個(gè)簇的中心點(diǎn)。并在上圖的VLAD core層中完成相應(yīng)的累積殘差操作。作者通過下圖給我們說明NetVLAD相比于原始的VLAD的優(yōu)勢:(更大的靈活性——學(xué)習(xí)更好的簇中心點(diǎn))

深度學(xué)習(xí)變革視覺實(shí)例搜索

這篇文章的另一個(gè)改進(jìn)工作就是Weakly supervised triplet ranking loss。該方法為了解決訓(xùn)練數(shù)據(jù)可能包含噪聲的問題,將triplet ranking loss中正負(fù)樣本分別替換為潛在的正樣本集(至少包含一張正樣本,但不確定哪張)和明確的負(fù)樣本集。并且在訓(xùn)練時(shí),約束查詢圖片和正樣本集中最可能是正樣本的圖片之間的特征距離比查詢圖片與所有負(fù)樣本集內(nèi)的圖片之間的特征距離要小。

Deep Relative Distance Learning: Tell the Difference Between Similar Vehicles (CVPR 2016)

接下來的這篇文章關(guān)注的是車輛識別/搜索問題,來自于北京大學(xué)Hongye Liu等人的工作。如下圖所示,這個(gè)問題同樣可以被看成實(shí)例搜索任務(wù)。

深度學(xué)習(xí)變革視覺實(shí)例搜索

和很多有監(jiān)督的深度實(shí)例搜索方法一樣,這篇文章旨在將原始的圖片映射到一個(gè)歐式特征空間中,并使得在該空間里,相同車輛的圖片更加聚集,而非同類的車輛圖片則更加遠(yuǎn)離。為了實(shí)現(xiàn)該效果,常用的方法是通過優(yōu)化triplet ranking loss,去訓(xùn)練CNN網(wǎng)絡(luò)。但是,作者發(fā)現(xiàn)原始的triplet ranking loss存在一些問題,如下圖所示:

深度學(xué)習(xí)變革視覺實(shí)例搜索

對于同樣的樣本,左邊的三元組會被損失函數(shù)調(diào)整,而右邊的三元組則會被忽視。兩者之間的區(qū)別在于anchor的選擇不一樣,這導(dǎo)致了訓(xùn)練時(shí)的不穩(wěn)定。為了克服該問題,作者用coupled clusters loss(CCL)去替代triplet ranking loss。該損失函數(shù)的特點(diǎn)就是將三元組變成了一個(gè)正樣本集和一個(gè)負(fù)樣本集,并使得正樣本內(nèi)的樣本相互聚集,而負(fù)樣本集內(nèi)的樣本與那些正樣本更加疏遠(yuǎn),從而避免了隨機(jī)選擇anchor樣本所帶來的負(fù)面影響。該損失函數(shù)的具體效果如下圖所示:

深度學(xué)習(xí)變革視覺實(shí)例搜索

最后這篇文章針對車輛問題的特殊性,并結(jié)合上面所設(shè)計(jì)的coupled clusters loss,設(shè)計(jì)了一種混合的網(wǎng)絡(luò)架構(gòu),并構(gòu)建了相關(guān)的車輛數(shù)據(jù)庫去提供所需的訓(xùn)練樣本。

DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations (CVPR 2016)

最后的這篇文章同樣是發(fā)表在CVPR 2016上,介紹了衣服識別和搜索,同樣是與實(shí)例搜索相關(guān)的任務(wù),來自于香港中文大學(xué)Ziwei Liu等人的工作。首先,本篇文章介紹了一個(gè)名為DeepFashion的衣服數(shù)據(jù)庫。該數(shù)據(jù)庫包含超過800K張的衣服圖片,50個(gè)細(xì)粒度類別和1000個(gè)屬性,并還額外提供衣服的關(guān)鍵點(diǎn)和跨姿態(tài)/跨領(lǐng)域的衣服對關(guān)系(cross-pose/cross-domain pair correspondences),一些具體例子如下圖所示:

深度學(xué)習(xí)變革視覺實(shí)例搜索

然后為了說明該數(shù)據(jù)庫的效果,作者提出了一種新穎的深度學(xué)習(xí)網(wǎng)絡(luò),F(xiàn)ashionNet——通過聯(lián)合預(yù)測衣服的關(guān)鍵點(diǎn)和屬性,學(xué)習(xí)得到更具區(qū)分性的特征。該網(wǎng)絡(luò)的總體框架如下所示:

深度學(xué)習(xí)變革視覺實(shí)例搜索

FashionNet的前向計(jì)算過程總共分為三個(gè)階段:第一個(gè)階段,將一張衣服圖片輸入到網(wǎng)絡(luò)中的藍(lán)色分支,去預(yù)測衣服的關(guān)鍵點(diǎn)是否可見和位置。第二個(gè)階段,根據(jù)在上一步預(yù)測的關(guān)鍵點(diǎn)位置,關(guān)鍵點(diǎn)池化層(landmark pooling layer)得到衣服的局部特征。第三個(gè)階段,將“fc6 global”層的全局特征和“fc6 local”的局部特征拼接在一起組成“fc7_fusion”,作為最終的圖像特征。FashionNet引入了四種損失函數(shù),并采用一種迭代訓(xùn)練的方式去優(yōu)化。這些損失分別為:回歸損失對應(yīng)于關(guān)鍵點(diǎn)定位,softmax損失對應(yīng)于關(guān)鍵點(diǎn)是否可見和衣服類別,交叉熵?fù)p失函數(shù)對應(yīng)屬性預(yù)測和三元組損失函數(shù)對應(yīng)于衣服之間的相似度學(xué)習(xí)。作者分別從衣服分類,屬性預(yù)測和衣服搜索這三個(gè)方面,將FashionNet與其他方法相比較,都取得了明顯更好的效果。

總結(jié):當(dāng)有足夠多的有標(biāo)注數(shù)據(jù)時(shí),深度學(xué)習(xí)可以同時(shí)學(xué)習(xí)圖像特征和度量函數(shù)。其背后的思想就是根據(jù)給定的度量函數(shù),學(xué)習(xí)特征使得特征在該度量空間下具有最好的判別性。因此端到端的特征學(xué)習(xí)方法的主要研究方向就是如何構(gòu)建更好的特征表示形式和損失函數(shù)形式。

基于CNN特征的特征編碼方法

本文在上面部分介紹的深度實(shí)例搜索算法,主要關(guān)注數(shù)據(jù)驅(qū)動的端到端特征學(xué)習(xí)方法及相對應(yīng)的圖像搜索數(shù)據(jù)集。接下來,本文關(guān)注于另一個(gè)問題:當(dāng)沒有這些相關(guān)的搜索數(shù)據(jù)集時(shí),如何提取有效的圖像特征。為了克服領(lǐng)域數(shù)據(jù)的不足,一種可行的策略就是在CNN預(yù)訓(xùn)練模型(訓(xùn)練在其他任務(wù)數(shù)據(jù)集上的CNN模型,比如ImageNet圖像分類數(shù)據(jù)集)的基礎(chǔ)上,提取其中某一層的特征圖譜(feature map),對其進(jìn)行編碼得到適用于實(shí)例搜索任務(wù)的圖像特征。本部分將根據(jù)近些年相關(guān)的論文,介紹一些主要的方法(特別的,本部分中所有的CNN模型都是基于ImageNet分類數(shù)據(jù)集的預(yù)訓(xùn)練模型)。

Multi-Scale Orderless Pooling of Deep Convolutional Activation Features (ECCV 2014)

這篇文章發(fā)表在ECCV 2014上,是來自于北卡羅來納大學(xué)教堂山分校Yunchao Gong和伊利諾伊大學(xué)香檳分校Liwei Wang等人的工作。 由于全局的CNN特征缺少幾何不變性,限制了對可變場景的分類和匹配。作者將該問題歸因于全局的CNN特征包含了太多的空間信息,因此提出了multi-scale orderless pooling (MOP-CNN)——將CNN特征與無序的VLAD編碼方法相結(jié)合。

MOP-CNN的主要步驟為,首先將CNN網(wǎng)絡(luò)看作為“局部特征”提取器,然后在多個(gè)尺度上提取圖像的“局部特征”,并采用VLAD將這些每個(gè)尺度的“局部特征”編碼為該尺度上的圖像特征,最后將所有尺度的圖像特征連接在一起構(gòu)成最終的圖像特征。提取特征的框架如下所示:

深度學(xué)習(xí)變革視覺實(shí)例搜索

作者分別在分類和實(shí)例搜索兩個(gè)任務(wù)上進(jìn)行測試,如下圖所示,證明了MOP-CNN相比于一般的CNN全局特征有更好的分類和搜索效果。

深度學(xué)習(xí)變革視覺實(shí)例搜索

Exploiting Local Features from Deep Networks for Image Retrieval (CVPR 2015 workshop)

這篇文章發(fā)表在CVPR 2015 workshop上,是來自于馬里蘭大學(xué)帕克學(xué)院Joe Yue-Hei Ng等人的工作。近期的很多研究工作表明,相比于全相連層的輸出,卷積層的特征圖譜(feature map)更適用于實(shí)例搜索。本篇文章介紹了如何將卷積層的特征圖譜轉(zhuǎn)化為“局部特征”,并使用VLAD將其編碼為圖像特征。另外,作者還進(jìn)行了一系列的相關(guān)試驗(yàn)去觀察不同卷積層的特征圖譜對實(shí)例搜索準(zhǔn)確率的影響。

深度學(xué)習(xí)變革視覺實(shí)例搜索

Aggregating Deep Convolutional Features for Image Retrieval(ICCV 2015)

接下來這篇文章發(fā)表在ICCV 2015上,是來自于莫斯科物理與技術(shù)學(xué)院Artem Babenko和斯科爾科沃科技學(xué)院Victor Lempitsky的工作。從上面兩篇文章可以看出,很多深度實(shí)例搜索方法都采用了無序的編碼方法。但包括VLAD,F(xiàn)isher Vector在內(nèi)的這些編碼方法的計(jì)算量通常比較大。為了克服該問題,這篇文章設(shè)計(jì)了一種更加簡單,并且更加有效的編碼方法——Sum pooing。Sum pooling的具體定義如下所示:

深度學(xué)習(xí)變革視覺實(shí)例搜索

其中就是在卷積層在空間位置上的局部特征(這里提取局部特征的方法,與上篇文章一致)。在使用sum pooling后,對全局特征進(jìn)一步地執(zhí)行PCA和L2歸一化得到最終的特征。作者分別與Fisher Vector,Triangulation embedding和max pooling這些方法進(jìn)行比較,論證了sum pooling方法不僅計(jì)算簡單,并且效果更好。

Where to Focus: Query Adaptive Matching for Instance Retrieval Using Convolutional Feature Maps (arXiv 1606.6811)

最后這篇文章目前發(fā)在arXiv上,是來自于澳大利亞昆士蘭大學(xué)Jiewei Cao等人的工作。正如本文在開頭部分所提到的,雜亂的背景對實(shí)例搜索影響非常大。為了克服該問題,這篇文章在上篇文章所提出的sum-pooling方法的基礎(chǔ)上,提出了一種被稱為query adaptive matching (QAM)的方法去計(jì)算圖像之間的相似度。該方法的核心在于對圖像的多個(gè)區(qū)域執(zhí)行池化操作,并創(chuàng)建多份特征去表達(dá)圖像。然后在匹配時(shí),查詢圖像將分別與這些區(qū)域的特征比較,并將最佳匹配分?jǐn)?shù)作為兩張圖像之間相似度。那么接下的問題是如何去構(gòu)建這些區(qū)域。

作者首先提出了兩種方法——Feature Map Pooling和Overlapped Spatial Pyramid Pooling (OSPP),去得到圖像的base region。然后通過對這些base region不斷地合并,以找到最好的相似度評分為目標(biāo),構(gòu)建出目標(biāo)區(qū)域。其中最吸引人的地方在于,作者將整個(gè)合并的過程,轉(zhuǎn)化為了對一個(gè)優(yōu)化問題的求解。下圖顯示了QAM方法的部分結(jié)果及對應(yīng)圖像的特征映射。

深度學(xué)習(xí)變革視覺實(shí)例搜索

總結(jié):在某些實(shí)例搜索任務(wù)中,由于缺少足夠的訓(xùn)練樣本,所以不能直接 “端到端”的去學(xué)習(xí)圖像特征。這時(shí)候,如何將現(xiàn)成的CNN特征編碼為適合實(shí)例搜索的圖像表示就成為該領(lǐng)域的一個(gè)熱門研究方向。

2015年首屆阿里巴巴大規(guī)模圖像搜索大賽總結(jié)

在介紹完近些年一些主要的深度實(shí)例搜索方法后,在接下來的部分,本文將通過總結(jié)在阿里巴巴大規(guī)模圖像搜索大賽中出現(xiàn)的相關(guān)方法,來介紹一些實(shí)踐中可以提高視覺實(shí)例搜索性能的技巧和方法。

阿里巴巴大規(guī)模圖像搜索大賽由阿里的圖像搜索組所主辦,要求參賽隊(duì)伍從海量的圖片庫中找出那些與查詢圖片包含相同物體的圖片。這次比賽提供了以下兩類數(shù)據(jù)用于訓(xùn)練:約200W張圖片的訓(xùn)練集(類別級標(biāo)簽及相對應(yīng)的屬性),1417張驗(yàn)證查詢圖片及相對應(yīng)的搜索結(jié)果(總共約10W張)。在測試時(shí),給定3567張查詢圖片,參賽隊(duì)伍需從約300W張圖片的評測集中(無標(biāo)簽),搜索出那些符合要求的圖片,評價(jià)指標(biāo)為基于top 20的mAP ( mean  Average  Precision)。

首先簡單介紹我們的方法——Multi-level Image Representation for Instance Retrieval,該方法取得了這次比賽的第三名。很多方法都是用最后一個(gè)卷積層或全連接層的特征進(jìn)行檢索,而由于高層的特征已經(jīng)損失了很多細(xì)節(jié)信息(對于更深的網(wǎng)絡(luò),損失更嚴(yán)重),所以實(shí)例搜索時(shí)不是很精準(zhǔn),如下圖所示,即整體輪廓相似,但細(xì)節(jié)則差距很大。

深度學(xué)習(xí)變革視覺實(shí)例搜索

為了克服該問題,我們將CNN網(wǎng)絡(luò)中不同層的特征圖譜(feature map)進(jìn)行融合,這不僅利用了高層特征的語義信息,還考慮了低層特征的細(xì)節(jié)紋理信息,使得實(shí)例搜索更精準(zhǔn)。如下圖所示,我們的實(shí)驗(yàn)主要基于GoogLeNet-22網(wǎng)絡(luò),對于最后的8層特征圖(從Inception 3b到Inception 5b),首先使用最大池化對這些不同尺度的特征圖分別進(jìn)行子采樣(轉(zhuǎn)換為相同尺寸的特征圖),并使用的卷積對這些采樣結(jié)果進(jìn)一步地處理。然后對這些特征圖做線性加權(quán)(由的卷積完成),最后在此基礎(chǔ)上,使用sum pooling得到最終的圖像特征。在訓(xùn)練時(shí),我們根據(jù)所提供的訓(xùn)練數(shù)據(jù),通過優(yōu)化基于余弦距離的triplet ranking loss來端到端學(xué)習(xí)這些特征。因此在測試時(shí),可以直接使用特征之間的余弦距離來衡量圖像的相似度。

深度學(xué)習(xí)變革視覺實(shí)例搜索

另外,借鑒于訓(xùn)練SVM分類器時(shí)使用了難分樣本挖掘的思想,我們的方法首先在前向計(jì)算時(shí),計(jì)算當(dāng)前訓(xùn)練批次中所有潛在三元組的損失(從當(dāng)前訓(xùn)練批次中選取兩張相同類別的圖片和一張不同類別的圖片構(gòu)成潛在三元組),然后找到那些“困難”的三元組(更大的損失),最后在反向計(jì)算時(shí),使用這些“困難”的三元組進(jìn)行誤差傳播,從而取得更好的訓(xùn)練效果。

接下來簡單總結(jié)其他隊(duì)伍的相關(guān)方法。在端到端的特征學(xué)習(xí)方法中,除了triplet ranking loss,contrastive loss(對應(yīng)于Siamese network)也是常見的損失函數(shù)。除此之外,還有一些方法值得我們關(guān)注,可以顯著地提高搜索性能:

(一)  同款圖挖掘

在有監(jiān)督的機(jī)器學(xué)習(xí)方法中,更多的數(shù)據(jù)可能就意味著更高的準(zhǔn)確率。因此來自于中科院計(jì)算所的團(tuán)隊(duì)提出,先根據(jù)ImageNet預(yù)訓(xùn)練模型的特征,在類別級訓(xùn)練集上聚類,然后通過閥值,挖掘出更多地同款圖,最后用這些同款圖去訓(xùn)練CNN網(wǎng)絡(luò),學(xué)習(xí)圖像特征。該方法實(shí)現(xiàn)簡單,并且可以顯著地提高搜索的性能。

(二)  目標(biāo)檢測

在實(shí)例檢索中,復(fù)雜的背景噪聲直接影響了最終的搜索性能。因此很多隊(duì)伍首先嘗試使用目標(biāo)檢測(比如faster-rcnn)定位感興趣的區(qū)域,然后在進(jìn)一步地學(xué)習(xí)特征,比較相似度。另外,當(dāng)沒有bounding box訓(xùn)練數(shù)據(jù)時(shí),弱監(jiān)督的目標(biāo)定位也是一種有效的方法。

(三) 一階池化特征和二階池化特征融合

二階池化方法通過捕捉圖像二階統(tǒng)計(jì)變量,如協(xié)方差等,往往可以取得更好的搜索準(zhǔn)確率。來自大連理工的李培華教授所帶領(lǐng)的團(tuán)隊(duì)在CNN網(wǎng)絡(luò)的基礎(chǔ)上,將一階池化特征和二階池化特征融合,取得非常出色的成績。

(四) 聯(lián)合特征學(xué)習(xí)和屬性預(yù)測

該方法和本文在第三部分所提到的DeepFashion類似,同時(shí)學(xué)習(xí)特征和預(yù)測圖片的屬性(多任務(wù)訓(xùn)練),從而得到更具區(qū)分性的特征。

雷鋒網(wǎng)注:本文由深度學(xué)習(xí)大講堂授權(quán)雷鋒網(wǎng)發(fā)布,轉(zhuǎn)載請注明作者和出處,不得刪減內(nèi)容。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

深度學(xué)習(xí)變革視覺實(shí)例搜索

分享:
相關(guān)文章

專欄作者

高質(zhì)量原創(chuàng)內(nèi)容平臺,學(xué)術(shù)界、工業(yè)界一線專家撰稿,致力于推送人工智能與深度學(xué)習(xí)最新技術(shù)、產(chǎn)品和活動。
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說