ECCV 2018 | 10篇論文+5項(xiàng)世界第一，記曠視科技ECCV之旅

本文作者：木子

2018-09-13 21:21

導(dǎo)語：ECCV2018，曠視科技交上了一份滿意的答卷。

曠視科技研究院

+75

AI影響因子

論文

名稱：ECCV

時(shí)間：2018

企業(yè)：曠視科技

比賽

比賽名稱：COCO+Mapillary 聯(lián)合挑戰(zhàn)賽

年份：2018

企業(yè)：曠視科技

操作：競賽

名次：1

比賽

比賽名稱： WIDER FACE

年份：2018

企業(yè)：曠視科技

操作：競賽

名次：1

更多相關(guān)

ECCV 2018 | 10篇論文+5項(xiàng)世界第一，記曠視科技ECCV之旅

當(dāng)?shù)貢r(shí)間 9 月 14 日，歐洲計(jì)算機(jī)視覺頂級學(xué)術(shù)會議 ECCV 2018 在德國慕尼黑圓滿落幕。據(jù)悉，ECCV 2018 規(guī)?？涨埃薪?3200 人參加，接收論文 776 篇；另有 43 場 Workshops 和 11 場 Tutorials。曠視科技研究院在院長孫劍博士的帶領(lǐng)下遠(yuǎn)赴盛會，用心用力，推動全球范圍計(jì)算機(jī)視覺的技術(shù)交流與產(chǎn)品落地。

長期以來，計(jì)算機(jī)視覺三大學(xué)術(shù)頂會 CVPR、ECCV 和 ICCV 一起發(fā)揮著舉足輕重的平臺擔(dān)當(dāng)作用，幫助產(chǎn)學(xué)研各方代表展示技術(shù)實(shí)力，增進(jìn)學(xué)術(shù)交流。曠視科技作為全球人工智能獨(dú)角獸代表，是計(jì)算機(jī)視覺三大 “C 位”會議的積極參與者，ICCV 2017 曠視科技打破谷歌、微軟壟斷，成為第一個(gè)問鼎 COCO 冠軍的中國公司；CVPR 2018 曠視科技全面進(jìn)擊，論文、Demo、挑戰(zhàn)賽、酒會，一個(gè)不少，掀起一股產(chǎn)學(xué)研交流熱潮。

這次的 ECCV 2018，曠視科技同樣保持著較高的參與度并收獲頗豐：

1. ECCV 2018 共收錄 10 篇曠視科技研究院涵蓋多個(gè) CV 子領(lǐng)域的論文；

2. 贏得 2018 COCO+Mapillary 挑戰(zhàn)賽四項(xiàng)世界第一，成為 ECCV 奪冠最多的企業(yè)；

3. 基于深厚的人臉識別技術(shù)積淀，曠視摘得 2018 WIDER Face Challenge 世界冠軍。

下文將一一呈現(xiàn)曠視科技 ECCV 之行的點(diǎn)滴瞬間。

10 篇接收論文全面展現(xiàn)技術(shù)硬實(shí)力

據(jù) ECCV 2018 官網(wǎng)信息，曠視科技共有 10 篇接收論文。從內(nèi)容上看，論文涵蓋 CV 技術(shù)的多個(gè)層面，小到一個(gè)新表示的提出，大到一個(gè)新模型的設(shè)計(jì)，乃至神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)原則和新任務(wù)、新方法的制定，甚至弱監(jiān)督學(xué)習(xí)的新探索，不一而足。

具體而言，曠視科技在以下技術(shù)領(lǐng)域?qū)崿F(xiàn)新突破：網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)（1 篇）、通用物體檢測（2 篇）、語義分割（3 篇）、場景理解（1 篇）、文本識別與檢測（2 篇）、人臉識別（1 篇）。

ECCV 2018 | 10篇論文+5項(xiàng)世界第一，記曠視科技ECCV之旅

神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)領(lǐng)域，ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design 不僅授之以魚，還授之以漁，針對移動端深度學(xué)習(xí)提出第二代卷積神經(jīng)網(wǎng)絡(luò) ShuffleNet V2，實(shí)現(xiàn)速度與精度的最優(yōu)權(quán)衡，同時(shí)給出了神經(jīng)網(wǎng)絡(luò)架構(gòu)的四個(gè)實(shí)用設(shè)計(jì)準(zhǔn)則。這無疑將加速推進(jìn)由深度學(xué)習(xí)驅(qū)動的計(jì)算機(jī)視覺技術(shù)在移動端的全面落地。此外，論文還提出網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)應(yīng)該考慮直接指標(biāo)，比如速度，而不是間接指標(biāo)，比如 FLOPs。

通用物體檢測方面，曠視科技通過設(shè)計(jì) 1）新型骨干網(wǎng)絡(luò) DetNet 和 2）目標(biāo)定位新架構(gòu) IoU-Net 推動該領(lǐng)域的發(fā)展。

ECCV 2018 | 10篇論文+5項(xiàng)世界第一，記曠視科技ECCV之旅

DetNet: A Backbone network for Object Detection 的設(shè)計(jì)靈感源自圖像分類與物體檢測任務(wù)之間存在的落差。詳細(xì)講，DetNet 針對不同大小和尺度的物體而像 FPN 一樣使用了更多的 stage；即便如此，在保留更大的特征圖分辨率方面，它依然優(yōu)于 ImageNet 預(yù)訓(xùn)練模型。但是，這會增加神經(jīng)網(wǎng)絡(luò)的計(jì)算和內(nèi)存成本。為保證效率，曠視研究員又引入低復(fù)雜度的 Dilated Bottleneck，兼得較高的分辨率和較大的感受野。DetNet 不僅針對分類任務(wù)做了優(yōu)化，對定位也很友好，并在 COCO 上的物體檢測和實(shí)例分割任務(wù)中展現(xiàn)了出色的結(jié)果。 ECCV 2018 | 10篇論文+5項(xiàng)世界第一，記曠視科技ECCV之旅

Acquisition of Localization Confidence for Accurate Object Detection （IoU-Net）實(shí)現(xiàn)了作為計(jì)算機(jī)視覺基石的目標(biāo)檢測技術(shù)的底層性原創(chuàng)突破。具體而言，通過學(xué)習(xí)預(yù)測與對應(yīng)真實(shí)目標(biāo)的 IoU，IoU-Net 可檢測到的邊界框的“定位置信度”，實(shí)現(xiàn)一種 IoU-guided NMS 流程，從而防止定位更準(zhǔn)確的邊界框被抑制。IoU-Net 很直觀，可輕松集成到多種不同的檢測模型中，大幅提升定位準(zhǔn)確度。MS COCO 實(shí)驗(yàn)結(jié)果表明了該方法的有效性和實(shí)際應(yīng)用潛力。研究員同時(shí)希望這些新視角可以啟迪未來的目標(biāo)檢測工作。

曠視科技語義分割領(lǐng)域的論文占比最高：1）實(shí)現(xiàn)實(shí)時(shí)語義分割的雙向網(wǎng)絡(luò) BiSeNet；2）優(yōu)化解決語義分割特征融合問題的新方法 ExFuse；以及 3）通過實(shí)例級顯著性檢測和圖劃分實(shí)現(xiàn)弱監(jiān)督語義分割的新方法。

BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation 的提出基于三種主流的實(shí)時(shí)語義分割模型加速方法，并在特征融合模塊和注意力優(yōu)化模塊的幫助下，把實(shí)時(shí)語義分割的性能推進(jìn)到一個(gè)新高度。 ECCV 2018 | 10篇論文+5項(xiàng)世界第一，記曠視科技ECCV之旅

ExFuse: Enhancing Feature Fusion for Semantic Segmentation 針對語義分割主流方法直接融合高低特征不奏效的問題而提出，創(chuàng)新性地在低級特征引入語義信息，在高級特征嵌入空間信息，優(yōu)化解決特征融合的問題。

Associating Inter-Image Salient Instances for Weakly Supervised Semantic Segmentation 通過整合顯著性檢測和圖劃分算法，提出一種新型弱監(jiān)督學(xué)習(xí)方法，加速語義分割發(fā)展，其最大亮點(diǎn)是既利用每個(gè)顯著性實(shí)例的內(nèi)在屬性，又挖掘整個(gè)數(shù)據(jù)集范圍內(nèi)不同顯著性實(shí)例的相互關(guān)系。

曠視科技借助統(tǒng)一感知解析網(wǎng)絡(luò) UPerNet 來優(yōu)化場景理解問題。Unified Perceptual Parsing for Scene Understanding 提出名為統(tǒng)一感知解析 UPP 的新任務(wù)，要求機(jī)器視覺系統(tǒng)從一張圖像中識別出盡可能多的視覺概念；又提出多任務(wù)框架 UPerNet ，開發(fā)訓(xùn)練策略以學(xué)習(xí)混雜標(biāo)注。UPP 基準(zhǔn)測試結(jié)果表明，UPerNet 可有效分割大量的圖像概念。

在文本識別與檢測方面，曠視科技貢獻(xiàn)了 1）新型端到端可訓(xùn)練網(wǎng)絡(luò) Mask TextSpotter 和 2）檢測任意形狀文本的靈活表征 TextSnake 兩個(gè)技術(shù)點(diǎn)。 ECCV 2018 | 10篇論文+5項(xiàng)世界第一，記曠視科技ECCV之旅

Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes 受到 Mask R-CNN 啟發(fā)，通過分割文本區(qū)域檢測文本，可勝任任意形狀的文本；另外，相比其他方法，Mask TextSpotter 還可借助語義分割實(shí)現(xiàn)精確的文本檢測和識別。

TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes 可以擬合任意形狀的文本，就像蛇一樣改變形狀適應(yīng)外部環(huán)境；基于這一表示，出現(xiàn)了一種有效的場景文本檢測方法，在包含若干個(gè)不同形式（水平、多方向、曲形）的文本數(shù)據(jù)集上做到當(dāng)前最優(yōu)。

GridFace 是曠視科技人臉識別領(lǐng)域的一項(xiàng)新突破。GridFace: Face Rectification via Learning Local Homography Transformations 可通過學(xué)習(xí)局部單應(yīng)變換減少人臉變形，先校正，再識別，過硬的校正技術(shù)大幅提升了人臉識別的性能。相關(guān)實(shí)驗(yàn)結(jié)果已證明該方法的有效性和高效性。

2018 COCO+Mapillary 包攬四冠成最大贏家

ECCV 2018 | 10篇論文+5項(xiàng)世界第一，記曠視科技ECCV之旅

ECCV 2018 最受矚目的 COCO+Mapillary 聯(lián)合挑戰(zhàn)賽，中國戰(zhàn)隊(duì)奪獲全部冠軍。曠視科技參戰(zhàn) 3 項(xiàng) COCO 比賽和 1 項(xiàng) Mapillary 比賽，分獲 3 項(xiàng) COCO 第一和 1 項(xiàng) Mapillary 第一，四戰(zhàn)皆勝，攬下了挑戰(zhàn)賽的“大半江山”，在實(shí)例分割、全景分割和人體關(guān)鍵點(diǎn)檢測上進(jìn)行了迭代式新探索。

實(shí)例分割

ECCV 2018 | 10篇論文+5項(xiàng)世界第一，記曠視科技ECCV之旅

實(shí)例分割是當(dāng)前器視覺物體識別最前沿的技術(shù)之一，也是計(jì)算機(jī)視覺最核心的任務(wù)之一。曠視科技奪冠的關(guān)鍵是在模型的核心組件 Head 上做功夫，提出一種名為 Location Sensitive Header（LSH）的新方法。

傳統(tǒng) Mask R-CNN 方法借助 RoI Align 提高實(shí)例分割定位精度，但對 RoI Align之后的組件 Head 無暇顧及。曠視研究員發(fā)掘出一個(gè)對實(shí)例分割友好，對定位精度敏感的 Head。概括來說，LSH 重新設(shè)計(jì)了任務(wù)之間的組合，把分類和分割 combine 起來，這樣做不僅可以優(yōu)化開發(fā)實(shí)例分割定位能力，還可有效避免定位和分類之間的沖突。最終，曠視科技以 mmAP 0.486 的成績拿下并列第一。

全景分割

ECCV 2018 | 10篇論文+5項(xiàng)世界第一，記曠視科技ECCV之旅

全景分割是這次挑戰(zhàn)賽的一項(xiàng)全新任務(wù)，代表著當(dāng)前計(jì)算機(jī)視覺識別技術(shù)最前沿，沒有之一。從任務(wù)層級看，全景分割會比實(shí)例分割更進(jìn)一步。針對這次大賽，在端到端框架探索折戟之后，曠視研究員選定一種 two-fold 方案：整合語義分割和實(shí)例分割算法的輸出。

這一做法需要克服兩個(gè)問題：1）Stuff 的特殊性；2）Thing 的遮擋。首先，曠視研究員針對 Stuff 設(shè)計(jì)試驗(yàn)了更強(qiáng)的 Encoder Network，又針對 Stuff Context 設(shè)計(jì)專門的 Object Context Network，保證 Stuff 的性能；其次，由于放棄端到端框架，在圖像融合之時(shí)會出現(xiàn)遮擋問題，曠視研究員給出了專門的 Spatial Hierarchical Relation 方法，根據(jù)不同物體的重疊面積排定圖像理解的層級。曠視科技高歌猛進(jìn)，最終在 COCO+Mapillary 實(shí)例分割兩項(xiàng)任務(wù)中分別以 PQ 0.538 和 0.412 的成績實(shí)力奪魁。

人體關(guān)鍵點(diǎn)檢測

ECCV 2018 | 10篇論文+5項(xiàng)世界第一，記曠視科技ECCV之旅

人體關(guān)鍵點(diǎn)檢測需要在多角度、多目標(biāo)、多尺寸等不受限條件下檢測人體，同時(shí)精確定位人體關(guān)鍵點(diǎn)，自 2016 年第二屆 COCO 挑戰(zhàn)賽以來一直保留，目前是第三次迭代。COCO 2017，曠視科技曾奪得第一，這次乘勝追擊，背后支撐的依然是“曠式”突破性技術(shù)。

由于當(dāng)前主流的人體姿態(tài)估計(jì)網(wǎng)絡(luò)都遭遇了瓶頸問題：增大骨干網(wǎng)絡(luò) Backbone 對精度提升的作用趨近于飽和，曠視研究員設(shè)計(jì)了新型 Cascade Backbone Network（CBN），可采用多層次跨階段連接和由粗到細(xì)的監(jiān)督策略，實(shí)現(xiàn)大幅的精度提升。CBN 采用小網(wǎng)絡(luò)、多階段、多層中間監(jiān)督，跨階段連接實(shí)現(xiàn)檢測結(jié)果逐階段精細(xì)提升，最終在 COCO 2018 人體關(guān)鍵點(diǎn)挑戰(zhàn)數(shù)據(jù)集中獲得 mmAP 0.764 的精度，順利衛(wèi)冕。

2018 WIDER Challenge 人臉識別挑戰(zhàn)賽勇奪第一

ECCV 2018 | 10篇論文+5項(xiàng)世界第一，記曠視科技ECCV之旅

ECCV 2018 WIDER Face and Pedestrian Challenge 是一項(xiàng)全球范圍內(nèi)的計(jì)算機(jī)視覺頂級賽事和新基準(zhǔn)競賽，吸引超過 400 多支隊(duì)伍參加，曠視科技參戰(zhàn)其中的人臉檢測比賽 WIDER Face Challenge，最終以 mmAP 0.5582 的成績技壓群雄，勇奪冠軍。

這項(xiàng)比賽中，曠視科技基于 RetinaNet 提出一種新型級聯(lián)檢測器，既吸取了 Cascade R-CNN 不斷提高閾值 refine 檢測框的 insight，又保證了inference 時(shí)依然是單階段檢測器，取長補(bǔ)短，兼得性能與速度。這一原創(chuàng)方法在單模型單尺度下 mmAP 超過第二名 1.4 個(gè)點(diǎn)，最終 mmAP 超過第二名 2.5 個(gè)點(diǎn)，以較大領(lǐng)先優(yōu)勢奪得第一名。

以上是曠視科技 ECCV 2018 之行的一些掠影。

作為全球計(jì)算機(jī)視覺獨(dú)角獸參加計(jì)算機(jī)視覺頂會，是對自身實(shí)力的一個(gè)驗(yàn)證和砥礪，也是一次相互交流和學(xué)習(xí)的好機(jī)會。曠視科技始于計(jì)算機(jī)視覺，深耕計(jì)算機(jī)視覺，人工智能的爆發(fā)與深度學(xué)習(xí)的發(fā)軔也在計(jì)算機(jī)視覺，從機(jī)器之眼開始，正如五億四千萬年之前，寒武紀(jì)生物大爆發(fā)的一個(gè)主要誘因是眼睛的出現(xiàn)。

能看的機(jī)器之眼，是計(jì)算機(jī)視覺技術(shù)與應(yīng)用的共同目標(biāo)，只不過技術(shù)是第一步。ECCV 2018，曠視科技交上了一份滿意的答卷，踏出、踏實(shí)、踏穩(wěn)了 AI 技術(shù)第一步，那么下一步，以非凡科技在全球范圍內(nèi)鑄成 AI+IoT，曠視科技正在飛奔而來。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

3人收藏

木子

編輯

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

ECCV 2018 | 10篇論文+5項(xiàng)世界第一，記曠視科技ECCV之旅

10 篇接收論文全面展現(xiàn)技術(shù)硬實(shí)力

2018 COCO+Mapillary 包攬四冠成最大贏家

2018 WIDER Challenge 人臉識別挑戰(zhàn)賽勇奪第一

ECCV 2018 | 10篇論文+5項(xiàng)世界第一，記曠視科技ECCV之旅