1
本文作者: 汪思穎 | 2017-10-15 22:50 | 專題:ICCV 2017 |
雷鋒網(wǎng) AI科技評論按,目標(biāo)檢測作為一個基礎(chǔ)的計算機視覺任務(wù),在自動駕駛、視頻監(jiān)控等領(lǐng)域擁有非常廣泛的應(yīng)用前景。目前主流的目標(biāo)檢測方法都嚴(yán)重依賴于在大規(guī)模數(shù)據(jù)集(如ImageNet)上預(yù)訓(xùn)練初始模型。而在DSOD: Learning Deeply Supervised Object Detectors from Scratch這篇論文中,作者通過分析深度檢測模型從頭訓(xùn)練存在的問題,提出了四個原則,他們根據(jù)這些原則構(gòu)建了DSOD模型,該模型在三個標(biāo)準(zhǔn)數(shù)據(jù)集(PASCAL VOC 07, 12和COCO)上都達到了頂尖的性能。這篇論文已被ICCV2017收錄。
在近期雷鋒網(wǎng) AI研習(xí)社的線上分享會上,該論文的第一作者——復(fù)旦大學(xué)Ph.D沈志強為我們帶來了對DSOD的詳細解讀,與此同時也介紹了他在CVPR 2017和ICCV 2017上的一些其它研究工作。
沈志強,復(fù)旦大學(xué)Ph.D,UIUC ECE系訪問學(xué)者,導(dǎo)師Thomas S. Huang教授。研究興趣包括:計算機視覺(目標(biāo)檢測、視頻描述、細粒度分類等),深度學(xué)習(xí),機器學(xué)習(xí)等。他曾在因特爾中國研究院(Intel Labs China)進行為期一年的實習(xí)研究,期間合作者包括研究院Jianguo Li博士和在讀博士生Zhuang Liu等。
分享內(nèi)容:
很高興與大家分享我們的最新的工作DSOD,這篇論文已經(jīng)被ICCV 2017 所收錄。
眾所周知,計算機視覺有幾個比較重要的分類,包括目標(biāo)分類、定位、目標(biāo)檢測、實例分割,前兩個分類是針對單個目標(biāo),后兩個分類是針對多個目標(biāo),DSOD主要是針對目標(biāo)檢測。
說到目標(biāo)檢測,大家可能會想到如下幾個比較有代表性的方法:R-CNN、Faster-RCNN、YOLO、SSD。下圖是關(guān)于他們的一些介紹。
ImageNet預(yù)訓(xùn)練模型的限制:一是模型結(jié)構(gòu)是固定的,你不可能改變它的結(jié)構(gòu),二是會有l(wèi)earning bias,三是會出現(xiàn)domain不匹配的情況。我們的思路是從頭訓(xùn)練檢測器,但是我們用R-CNN和Faster-RCNN都沒能得到較好的表現(xiàn)。
簡單回顧下Rol pooling,如下圖所示:
它其實就是一個max pooling:
可以在下圖中看到forward和backward情況,把Rol pooling去掉這個框架就類似于YOLO和SSD。
幾個原則:一是Proposal-free。去掉Rol pooling,雖然對模型的表現(xiàn)影響不大,但這一點非常重要。
二是Deep Supervision。采用Dense Block,能避免梯度消失的情況。
三是Dense Prediction Structure。大大減少了模型的參數(shù)量,特征包含更多信息。
四是Stem Block。采用stem結(jié)構(gòu),好處是能減少輸入圖片信息的丟失。
下面是DSOD整體結(jié)構(gòu):
這是我們做的一些對比實驗,可以看到增加這些結(jié)構(gòu)之后性能提升的百分點:
下面是在PASCAL VOC2007上的實驗結(jié)果,可以看到Faster-RCNN和R-CNN速度很慢,YOLO和SSD的速度非???,但是mAP不高。最下面是我們沒有用預(yù)訓(xùn)練模型做的一些對比實驗,可以看到Faster-RCNN和R-CNN均以失敗告終,最后的一行的實驗加入COCO后mAP值提升,說明DSOD模型本身的泛化能力非常強。
下面是在PASCAL VOC2012上的實驗結(jié)果,可以看到DSOD有不錯的mAP值。
接下來是在COCO上面的一些結(jié)果,對比起來DSOD的也有很好的性能。
最后是一些實際的檢測結(jié)果,可以看到bounding box對目標(biāo)的檢測非常貼合。
論文地址: https://arxiv.org/abs/1708.01241
代碼:https://github.com/szq0214/DSOD
模型可視化示例:http://ethereon.github.io/netscope/#/gist/b17d01f3131e2a60f9057b5d3eb9e04d
最后簡單介紹下我們在CVPR 2017的相關(guān)工作Dense Video captioning,主要是做視頻描述。在視頻當(dāng)中包含很多內(nèi)容,而這些內(nèi)容并不一致,因此視頻描述相對來說會比較困難。下圖是一些示例。
網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。具體細節(jié)大家可以參見我們的論文Weakly Supervised Dense Video Captioning,論文地址:https://arxiv.org/abs/1704.01502
接下來是我們在ICCV 2017上的工作,主要是做網(wǎng)絡(luò)壓縮。我們用了一個衡量channel是否重要的值來訓(xùn)練模型,然后剔除掉不太重要的特征層。論文代碼我們也放在github上了。具體細節(jié)大家可以參見論文Learning Efficient Convolutional Networks through Network Slimming,論文地址:https://arxiv.org/abs/1708.06519
本次分享的視頻如下:
雷鋒網(wǎng) AI科技評論整理編輯。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章