商湯科技正式開源 mmdetection 和 mmcv

本文作者：汪思穎

2018-10-14 13:37

導(dǎo)語：mmdetection 和 Detectron 主要有如下三點差異：performance 稍高；訓(xùn)練速度稍快；所需顯存稍小。

商湯科技SenseTime

AI影響因子

開發(fā)

企業(yè)：商湯科技SenseTime

操作：開源

內(nèi)容：開源mmcv

雷鋒網(wǎng) AI 科技評論消息，10 月 12 日，商湯科技正式開源 mmdetection 和 mmcv 兩個項目。憑借以上事件，商湯科技在雷鋒網(wǎng)旗下學(xué)術(shù)頻道 AI 科技評論數(shù)據(jù)庫產(chǎn)品「AI 影響因子」上有相應(yīng)加分。

據(jù)悉，mmdetection 檢測庫是基于商湯在 COCO 比賽（Detection 2018 winner）時的 codebase 重構(gòu)，這個開源庫提供了已公開發(fā)表的多種視覺檢測核心模塊，通過這些模塊的組合，可以迅速搭建出各種著名的檢測框架。據(jù)該開源庫作者之一、香港中文大學(xué)陳愷介紹，這一版本中實現(xiàn)了 RPN，F(xiàn)ast R-CNN，F(xiàn)aster R-CNN，Mask R-CNN，近期還計劃釋放 RetinaNet 和 Cascade R-CNN。

mmcv 是一個基礎(chǔ)庫，主要分為兩個部分，一部分是和 deep learning framework 無關(guān)的一些工具函數(shù)，比如 IO/Image/Video 相關(guān)的一些操作，另一部分是為 PyTorch 寫的一套訓(xùn)練工具，可以大大減少用戶需要寫的代碼量，同時讓整個流程的定制變得容易。

在該庫開源之后，知乎上有人提出問題：

如何評價商湯開源的 mm-detection 檢測庫？mm-detection 相比 FAIR 的 Detectron 如何？

陳愷也第一時間進行解答，他表示，mmdetection 和 Detectron 主要有如下三點差異：

performance 稍高
訓(xùn)練速度稍快
所需顯存稍小

他進一步解釋道，在 performance 上，由于 PyTorch 官方 model zoo 里的 ResNet 結(jié)構(gòu)和 Detectron 所用的 ResNet 有細微差別（mmdetection 中可以通過 backbone 的 style 參數(shù)指定），導(dǎo)致模型收斂速度不一樣。他們用兩種結(jié)構(gòu)都進行了實驗，和 Detectron 使用相同的 pretrain model 的情況下，performance 比 Detectron 稍高，在使用 PyTorch 官方的 model 進行訓(xùn)練時， 1x 的 lr schedule 下比 Detectron 的 performance 略低，但 2x 的情況下更高。

速度方面 Mask R-CNN 的差異比較大，其余框架的差異很小。采用相同的 setting，Detectron 每個 iteration 需要 0.89s，而 mmdetection 只需要 0.69s。Fast R-CNN 比較例外，比 Detectron 的速度稍慢。另外，他們在服務(wù)器上跑 Detectron 會比官方 report 的速度慢 20% 左右，他提出猜測，可能是 FB 的 Big Basin 服務(wù)器性能比他們好。

在顯存方面這一檢測庫的優(yōu)勢比較明顯，會小 30% 左右。但他表示，這和框架有關(guān)，不完全是 codebase 優(yōu)化的功勞。一個讓他們比較意外的結(jié)果是，現(xiàn)在的 codebase 版本跑 ResNet-50 的 Mask R-CNN，每張卡（12 G）可以放 4 張圖，顯存消耗比他們在 COCO 比賽時小了不少。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

5人收藏

相關(guān)文章

汪思穎

編輯

關(guān)注AI學(xué)術(shù)，例如論文

發(fā)私信

當(dāng)月熱門文章