丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

CVPR論文解讀:非常高效的物體檢測Mimic方法

本文作者: 汪思穎 2017-07-27 20:33 專題:CVPR 2017
導(dǎo)語:對 Mimicking Very Efficient Network for Object Detection 論文進(jìn)行的解讀

雷鋒網(wǎng) AI科技評論按:雖然CVPR 2017已經(jīng)落下帷幕,但對精彩論文的解讀還在繼續(xù)。下文是Momenta高級研發(fā)工程師蔣云飛對此次大會收錄的 Mimicking Very Efficient Network for Object Detection 一文進(jìn)行的解讀。

背景

Mimic作為一種模型小型化的方法,Hinton在 Distilling the Knowledge in a Neural Network  一文中已經(jīng)詳細(xì)定義并介紹過,但近些年來大部分有關(guān)于mimic的論文主要都是局限在較為簡單的classification 的任務(wù)中,而對于較為復(fù)雜一些的detection任務(wù),直接套用以前的方案則顯得不行。本文提出了一種學(xué)習(xí)feature map來實(shí)現(xiàn)Object Detection任務(wù)上mimic的方法。

傳統(tǒng)的Mimic過程,一般使用一個已經(jīng)訓(xùn)練好的大模型,固定該模型的weights不變,設(shè)計一個小模型,學(xué)習(xí)大模型的soft targets 或者logits的輸出;大模型學(xué)習(xí)到有效的信息可以傳遞給小模型,使得小模型也可以有較為不錯的性能表現(xiàn),其Loss函數(shù)如下:

CVPR論文解讀:非常高效的物體檢測Mimic方法

其中W為小模型的weights,g(x;W) 為小模型的輸出,z為學(xué)習(xí)的大模型的輸出。

然而直接套用該方法在檢測任務(wù)中,效果很差,因此作者進(jìn)行了進(jìn)一步的探索。首先,對于常見的檢測網(wǎng)絡(luò)如Faster-RCNN、RFCN、SSD等進(jìn)行分析,可以發(fā)現(xiàn),它們主要包含兩部分,分別為feature extractor以及feature decoder。而不同的大網(wǎng)絡(luò)主要是feature extractor不同,因此作者認(rèn)為對于feature map進(jìn)行mimic,可以獲得較為有效的結(jié)果。

CVPR論文解讀:非常高效的物體檢測Mimic方法

Mimic方法詳細(xì)敘述:

因此作者提出了本文的mimic算法,在使用本身ground-truth監(jiān)督小模型訓(xùn)練的同時,加入大小模型之間feature map的監(jiān)督,使得mimic的效果會更好。大致的流程如下圖所示:

CVPR論文解讀:非常高效的物體檢測Mimic方法

但同時作者也指出,單純使小模型學(xué)習(xí)大模型的feature map并不能work,原因在于feature map的維度太高,包含太多全局的信息,而對于僅有少量object的feature map,通常只有微弱的響應(yīng)。因此,該文中提出了一個新的卷積網(wǎng)絡(luò)mimic方法,即將學(xué)習(xí)整個feature map變?yōu)閷W(xué)習(xí)proposal采樣之后的feature來簡化任務(wù)。

在由小網(wǎng)絡(luò)生成的proposal中,使用spatial pyramid pooling方法在大小網(wǎng)絡(luò)上進(jìn)行局部特征采樣(后經(jīng)作者指正為直接使用pixel-wise的學(xué)習(xí)),然后通過L2 loss減小二者之間的差別,loss function定義如下:

CVPR論文解讀:非常高效的物體檢測Mimic方法

總的loss主要由兩部分組成,分別為mimic loss 以及ground-truth loss,作者在實(shí)驗中發(fā)現(xiàn),對于mimic loss進(jìn)行normalization可以取得更為穩(wěn)定的mimic結(jié)果:

CVPR論文解讀:非常高效的物體檢測Mimic方法

同時,作者還提到了對于小網(wǎng)絡(luò)與大網(wǎng)絡(luò)feature map大小不同的情況(譬如小網(wǎng)絡(luò)中輸入圖像減半),可以增加一個轉(zhuǎn)換層(deconvolution)使得大小網(wǎng)絡(luò)最終mimic的層保持一致,如下圖所示:

CVPR論文解讀:非常高效的物體檢測Mimic方法

另外,在faster rcnn中stage2 fast rcnn的訓(xùn)練過程中,也可以添加大網(wǎng)絡(luò)的監(jiān)督信號(監(jiān)督框的classification以及regression),使得小網(wǎng)絡(luò)可以學(xué)習(xí)到更多大網(wǎng)絡(luò)的有效信息,得到更好的結(jié)果。

結(jié)果分析:

作者在Caltech行人數(shù)據(jù)集以及PASCAL VOC 2007 數(shù)據(jù)集上進(jìn)行了實(shí)驗。

Caltech使用log average Miss Rate on False Positive Per Image作為評價標(biāo)準(zhǔn),作者首先訓(xùn)練并得到了兩個baseline檢測網(wǎng)絡(luò):

CVPR論文解讀:非常高效的物體檢測Mimic方法

同時,定義了mimic的小網(wǎng)絡(luò)的結(jié)構(gòu)為1/n-Inception 網(wǎng)絡(luò),網(wǎng)絡(luò)的深度與層數(shù)沒有改變,減小每層conv的channel個數(shù),使得網(wǎng)絡(luò)變得更細(xì)。

可以看到直接使用傳統(tǒng)mimic方法訓(xùn)練模型,結(jié)果非常糟糕,甚至不及直接使用數(shù)據(jù)集對小網(wǎng)絡(luò)進(jìn)行訓(xùn)練:

CVPR論文解讀:非常高效的物體檢測Mimic方法

而后作者使用本文方法進(jìn)行Mimic訓(xùn)練,取得了較為可觀的性能增長:

CVPR論文解讀:非常高效的物體檢測Mimic方法

從上述結(jié)果中,可以看到使用mimic的結(jié)果取得了與原網(wǎng)絡(luò)差不多甚至稍好的結(jié)果。

CVPR論文解讀:非常高效的物體檢測Mimic方法

同理,在VOC數(shù)據(jù)集的測試結(jié)果中也可以看到,Mimic的方法取得了很有競爭力的結(jié)果。

現(xiàn)場問答

在2017 CVPR現(xiàn)場與論文的作者李全全進(jìn)行的討論與交流:

Q:本文為何使用 spatial pyramid pooling進(jìn)行feature map的sample,是否考慮使用其他方式例如ROI-pooling?

A:經(jīng)過李全全確認(rèn),他后期是直接使用ROI,也即兩個feature map pixel-wise相減,而不是spatial pyramid pooling;使用SPP的效果理應(yīng)是好于單size的pooling的(roi-pooling)。

Q:為何使用單層(最后一層)feature map進(jìn)行mimic,是否可以融合多個feature map?

A:可以嘗試融合多個feature map 進(jìn)行監(jiān)督,理論上來說效果應(yīng)該會比較好,但由于時間較為緊張,所以沒有做。文中使用的normalization是為了穩(wěn)定,因為每次出來的proposal的size是不斷變化的,因此在計算loss的時候的pixel的數(shù)量也會發(fā)生較大的變化,因此需要使用normalization。

Q:為何使用 deconvolution,是否可以對feature map 直接進(jìn)行線性縮放?

A:直接對于feature map進(jìn)行縮放是可行的。同時,這樣的結(jié)構(gòu)本身會在小物體的檢測上比較有用。如果把deconv層獨(dú)立成一個分支的話(deploy的時候去掉這個分支),效果可能比不上將這個小網(wǎng)絡(luò)放大,目前看來,大的feature層對于小物體的檢測還是比較有好處的。

Q:為何使用小網(wǎng)絡(luò)生成的 proposal ,有沒有嘗試過直接使用 ground-truth boxes?

A:希望模型更多的是關(guān)注object在feature map上有響應(yīng)的地方,所以使用Top-proposal。具體來說,Top-proposal的方法中,proposal的數(shù)量設(shè)定在256或者512,正負(fù)樣本比例設(shè)定在1:1;而使用GroundTruth的框來做監(jiān)督的效果并不好,作者有進(jìn)行過類似的實(shí)驗:對于負(fù)樣本來說使用random的sample,正樣本直接使用GroundTruth,結(jié)果比使用top-proposal的方法差一些。

Q:有沒有嘗試過其他不同網(wǎng)絡(luò)結(jié)構(gòu)的mimic (更小或者更瘦長的)?

A:對于mimic來說,其實(shí)小網(wǎng)絡(luò)本身有一個baseline,大網(wǎng)絡(luò)有一個baseline,mimic的任務(wù)便是縮小兩者之間的差別;而對于小網(wǎng)絡(luò)來說,相似的網(wǎng)絡(luò)會有較好的學(xué)習(xí)能力,當(dāng)然對于不同結(jié)構(gòu)的小網(wǎng)絡(luò)也可以使用deconv的方式來進(jìn)行學(xué)習(xí)。

論文地址:http://openaccess.thecvf.com/content_cvpr_2017/papers/Li_Mimicking_Very_Efficient_CVPR_2017_paper.pdf

雷鋒網(wǎng) AI科技評論編輯。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

CVPR論文解讀:非常高效的物體檢測Mimic方法

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說