0
本文作者: 汪思穎 | 2018-10-14 13:37 |
雷鋒網(wǎng) AI 科技評(píng)論消息,10 月 12 日,商湯科技正式開源 mmdetection 和 mmcv 兩個(gè)項(xiàng)目。憑借以上事件,商湯科技在雷鋒網(wǎng)旗下學(xué)術(shù)頻道 AI 科技評(píng)論數(shù)據(jù)庫(kù)產(chǎn)品「AI 影響因子」上有相應(yīng)加分。
據(jù)悉,mmdetection 檢測(cè)庫(kù)是基于商湯在 COCO 比賽(Detection 2018 winner)時(shí)的 codebase 重構(gòu),這個(gè)開源庫(kù)提供了已公開發(fā)表的多種視覺檢測(cè)核心模塊,通過(guò)這些模塊的組合,可以迅速搭建出各種著名的檢測(cè)框架。據(jù)該開源庫(kù)作者之一、香港中文大學(xué)陳愷介紹,這一版本中實(shí)現(xiàn)了 RPN,F(xiàn)ast R-CNN,F(xiàn)aster R-CNN,Mask R-CNN,近期還計(jì)劃釋放 RetinaNet 和 Cascade R-CNN。
mmcv 是一個(gè)基礎(chǔ)庫(kù),主要分為兩個(gè)部分,一部分是和 deep learning framework 無(wú)關(guān)的一些工具函數(shù),比如 IO/Image/Video 相關(guān)的一些操作,另一部分是為 PyTorch 寫的一套訓(xùn)練工具,可以大大減少用戶需要寫的代碼量,同時(shí)讓整個(gè)流程的定制變得容易。
在該庫(kù)開源之后,知乎上有人提出問題:
如何評(píng)價(jià)商湯開源的 mm-detection 檢測(cè)庫(kù)?mm-detection 相比 FAIR 的 Detectron 如何?
陳愷也第一時(shí)間進(jìn)行解答,他表示,mmdetection 和 Detectron 主要有如下三點(diǎn)差異:
performance 稍高
訓(xùn)練速度稍快
所需顯存稍小
他進(jìn)一步解釋道,在 performance 上 ,由于 PyTorch 官方 model zoo 里的 ResNet 結(jié)構(gòu)和 Detectron 所用的 ResNet 有細(xì)微差別(mmdetection 中可以通過(guò) backbone 的 style 參數(shù)指定),導(dǎo)致模型收斂速度不一樣。他們用兩種結(jié)構(gòu)都進(jìn)行了實(shí)驗(yàn),和 Detectron 使用相同的 pretrain model 的情況下,performance 比 Detectron 稍高,在使用 PyTorch 官方的 model 進(jìn)行訓(xùn)練時(shí), 1x 的 lr schedule 下比 Detectron 的 performance 略低,但 2x 的情況下更高。
速度方面 Mask R-CNN 的差異比較大,其余框架的差異很小。采用相同的 setting,Detectron 每個(gè) iteration 需要 0.89s,而 mmdetection 只需要 0.69s。Fast R-CNN 比較例外,比 Detectron 的速度稍慢。另外,他們?cè)诜?wù)器上跑 Detectron 會(huì)比官方 report 的速度慢 20% 左右,他提出猜測(cè),可能是 FB 的 Big Basin 服務(wù)器性能比他們好。
在顯存方面這一檢測(cè)庫(kù)的優(yōu)勢(shì)比較明顯,會(huì)小 30% 左右。但他表示,這和框架有關(guān),不完全是 codebase 優(yōu)化的功勞。一個(gè)讓他們比較意外的結(jié)果是,現(xiàn)在的 codebase 版本跑 ResNet-50 的 Mask R-CNN,每張卡(12 G)可以放 4 張圖,顯存消耗比他們?cè)?COCO 比賽時(shí)小了不少。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。