0
雷鋒網(wǎng) AI 科技評論:6 月 18 日,三大世界頂級計算機視覺會議之一「計算機視覺與模式識別會議」(Conference on Computer Vision and Pattern Recognition 2019,CVPR 2019)在美國長灘拉開帷幕,頂會吸引全球超過9200位頂尖專家、學者以及產(chǎn)業(yè)界人士,共同推進 CV 技術(shù)的發(fā)展與落地。
相比 2018 年,本屆 CVPR 的論文提交數(shù)量增加了 56%,但論文接收率卻下降了 3.9%,可見論文入選難度加大;而學術(shù)比賽報名人數(shù)也保持持續(xù)增長。但無論在論文方面還是學術(shù)比賽中,今年多家中國企業(yè)都取得了可喜的成績,這些成績不僅體現(xiàn)了這些企業(yè)的發(fā)展水平,也代表了國人的科技進步。雷鋒網(wǎng) AI 科技評論現(xiàn)將其成果整理報道如下。
商湯科技 CVPR 2019 錄取論文在多個領域?qū)崿F(xiàn)了突破,其中代表性論文有:《基于混合任務級聯(lián)的實例分割算法》、《基于特征指導的動態(tài)錨點框生成算法》(高層視覺核心算法——物體檢測與分割);《基于網(wǎng)絡參數(shù)插值的圖像效果連續(xù)調(diào)節(jié)》、《基于光流引導的視頻修復》(底層視覺核心算法——圖片復原與補);《PointRCNN: 基于原始點云的 3D 物體檢測方法》(面向自動駕駛場景的 3D 視覺);《基于人體本征光流的姿態(tài)轉(zhuǎn)換圖像生成》(面向 AR/VR 場景的人體姿態(tài)遷移);《基于條件運動傳播的自監(jiān)督學習》(無監(jiān)督與自監(jiān)督深度學習前沿進展)等。這些突破性的計算機視覺算法不僅有著豐富的應用場景,也為 AI 行業(yè)的發(fā)展做出了巨大的貢獻。
而在 CVPR 2019 Workshop NTIRE 2019 視頻恢復比賽中(包含兩個視頻去模糊和兩個視頻超分辨率),來自商湯科技、香港中文大學、南洋理工大學、中國科學院深圳先進技術(shù)研究院組成的聯(lián)合研究團隊使用 EDVR 一套算法,獲得了全部四個賽道的所有冠軍,并且每個結(jié)果都大幅超越賽道第二名。
在論文《EDVR: Video Restoration with Enhanced Deformable Convolutional Networks》中,作者介紹了這種新型算法,通過一種新的網(wǎng)絡模塊 PCD 對齊模塊,使用 Deformable 卷積進行視頻的對齊,可以實現(xiàn)整個過程端到端的訓練;而在挖掘時域(視頻前后幀)和空域(同一幀內(nèi)部)的信息融合時,作者又提出了一種時空注意力模型,來進行更好的信息融合。
EDVR 算法架構(gòu)
因此,在將 EDVR 算法視頻超分辨率與目前行業(yè)最好的圖像超分辨算法 RCAN 恢復來對同一區(qū)域進行處理時,可以明顯看到 EDVR 算法視頻超分辨能給到更多的細節(jié)。(該方法的代碼已開源)
另外,商湯科技還在 AI CITY Challenge(CVPR 2019 Workshop)異常檢測賽道中獲得冠軍。城市智慧交通一直都面臨著數(shù)據(jù)質(zhì)量差、標簽數(shù)據(jù)少、缺乏高質(zhì)量算法模型以及從邊緣到云端的計算資源不足等挑戰(zhàn),而比賽中,商湯科技的設計更多地通過遷移學習、無監(jiān)督和半監(jiān)督的方法檢測交通異常,如道路事故、車輛故障等,從而達到更好的幫助城市交通變得安全和智能這一目的。
EDVR 論文地址
https://arxiv.org/abs/1905.02716v1
EDVR GitHub 地址
在今年的 CVPR 上,百度共有 17 篇論文被接收,內(nèi)容涵蓋了語義分割、網(wǎng)絡剪枝、ReID、GAN 等諸多方向,并且其中很多技術(shù)都設計到無人駕駛相關場景。
其中包括《Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》(https://arxiv.org/abs/1809.09478)中,提到了結(jié)合了聯(lián)合訓練和對抗訓練來處理虛擬圖像與真實圖像之間語義分割網(wǎng)絡訓練差異的問題,將該技術(shù)應用在自動駕駛中,可以大大減少數(shù)據(jù)標注和采集的工作量。
《Sim-Real Joint Reinforcement Transfer for 3D Indoor Navigation》(https://arxiv.org/abs/1904.03895)中提出的視覺特征適應模型和策略模擬模型,可以有效將機器人在虛擬環(huán)境中學習到的策略和特征遷移到實際場景中;《ApolloCar3D: A Large 3D Car Instance Understanding Benchmark for Autonomous Driving》一文提出目前已知自動駕駛領域最大規(guī)模的三維車輛姿態(tài)數(shù)據(jù)集,可以更好的對單張圖像的車輛姿態(tài)估計。
而在 CVPR 相關競賽任務中,百度一共獲得了 10 項冠軍,涵蓋眾多熱門領域——
視覺領域下的視頻理解與分析:包括視頻動作提名、視頻動作檢測兩項任務的冠軍,以及新增任務 EPIC-Kitchens 動作識別挑戰(zhàn)賽中獲兩項測試集冠軍(Seen kitchens 和 Unseen kitchens);
目標檢測:「Objects365 物體檢測」國際競賽 Full Track 冠軍,NTIRE 競賽中獲得圖像超分辨項目冠軍;
人體檢測:Look Into Person 國際競賽中三項人體精細化解析競賽單元(Track1:Single-Person Human Parsing,Track3:Mult-Person Human Parsing,Track4:Video Multi-Person Parsing)中,均獲得第一名;
人臉活體檢測:在 CVPR-19-Face Anti-spoofing Attack Detection Challenge 上,百度擊敗了 300 多個隊伍,最終獲得第一的好成績。
智能城市車輛識別:AI-city 公開賽城市范圍多攝像頭車輛重識別任務第一名;
在 CVPR 2019 上,百度 Apollo 還首次曝光 L4 級自動駕駛純視覺解決方案。Apollo 技術(shù)委員會主席王亮就 L4 級全自動駕駛(Fully Autonomous Driving)環(huán)境感知技術(shù)方案進行了講解,并公開了環(huán)視視覺解決方案百度 Apollo Lite。并表示經(jīng)過前期的技術(shù)研發(fā)投入和 2019 年上半年的路測迭代,依靠這套 10 相機的感知系統(tǒng),百度無人車已經(jīng)可以在城市道路上實現(xiàn)不依賴高線數(shù)旋轉(zhuǎn)式激光雷達的端到端閉環(huán)自動駕駛。
在 CVPR 2019 上,曠視研究院通過 Oral、Poster、Workshop、Demo、Booth 等形式,同世界分享在計算機視覺理論與應用領域的最新進展。
相比去年曠視科技有 8 篇論文被收錄,今年他們又多了 6 篇被 CVPR 所接收。這 14 篇論文涉及行人重識別、場景文字檢測、全景分割、圖像超分辨率、語義分割、時空檢測等技術(shù)方向。
并在頂會的 CVPR 2019 WAD(Workshop on Autonomous Driving)、CVPR 2019 FGVC(Workshop on Fine-Grained Visual Categorization)、CVPR 2019 NTIRE(New Trends in Image Restoration and Enhancement workshop)3 項挑戰(zhàn)賽中,擊敗 Facebook、通用動力、戴姆勒等國內(nèi)外一線科技巨頭與知名高校,一舉拿下 6 項世界冠軍,內(nèi)容涵蓋自動駕駛、新零售、智能手機、3D 等眾多領域。
其中挑戰(zhàn)賽 NTIRE 2019 真實圖像降噪比賽,致力于恢復與增強圖像質(zhì)量。到目前為止,已連續(xù)舉辦了 3 年。今年 NTIRE 挑戰(zhàn)賽下設 11 項比賽,曠視研究院參賽的「真實圖像降噪(Real Image Denosing Challenge)」中,共有來自全球的 216 位選手、12 支隊伍。和往年不同,今年的圖像降噪賽是針對真實而非合成的圖像去評估圖像降噪器。該項比賽根據(jù)圖像儲存的兩種格式——原始傳感器數(shù)據(jù)(raw)和標準 RBG(sRGB),分為對應的兩項子賽。
曠視研究院參戰(zhàn) raw 圖像去噪,提出了針對 raw 圖像的基于 U-Net 框架的「拜爾陣列歸一化與保列增廣」方法。團隊精心設計了一種數(shù)據(jù)預處理方法,使得不同輸入圖像間的數(shù)據(jù)能保持網(wǎng)絡輸入一致性,從而應用到具有不同拜耳模式的輸入上,在保證性能的前提下用更大的圖像集合訓練網(wǎng)絡。此外,團隊還提出了適用于 raw 圖像的數(shù)據(jù)增廣方法,這些優(yōu)勢可以幫助網(wǎng)絡獲得更好的泛化能力。
而且曠視的冠軍算法已成功落地于 OPPO Reno 10 倍變焦版。OPPO Reno 10 倍變焦版搭載了基于曠視 MEGVII 超畫質(zhì)技術(shù)研發(fā)的「超清夜景 2.0」功能,能夠為用戶提供更好的夜拍體驗。這也是曠視超畫質(zhì)技術(shù)首次運用在大規(guī)模量產(chǎn)機型上。
本次京東 AI 研究院在 CVPR 2019 上一共發(fā)表 12 篇論文,其中 4 篇論文入選了 oral presentation(oral presentation 的入選率只有 5%),入選 oral presentation 的四篇論文包含:
《ScratchDet: Exploring to Train Single-Shot Object Detectors from Scratch》(https://arxiv.org/abs/1810.08425v3)
《Transferrable Prototypical Networks for Unsupervised Domain Adaptation》(https://arxiv.org/abs/1904.11227)
《Unsupervised Person Image Generation with Semantic Parsing Transformation》(https://arxiv.org/abs/1904.03379)
《Gaussian Temporal Awareness Networks for Action Localization》(https://docs.wps.cn/view/p/35402862179?from=docs&source=docsWeb)
其中京東 AI 研究院提出的 ScratchDet,則從優(yōu)化的角度出發(fā),通過實驗解釋了梯度穩(wěn)定手段之一的 BatchNorm 如何幫助隨機初始化訓練檢測器,進而結(jié)合了 ResNet 與 VGGNet 來加強對小物體的檢測。并將這一技術(shù)成功運用在了其他任務上,如人臉檢測、文字檢測等,這對于計算機視覺的發(fā)展有著重大的意義。
在學術(shù)比賽方面,京東 AI 研究院在 CVPR 2019 上共獲得三項第一,分別是:視頻動作識別、商品圖片識別,以及精細粒度蝶類圖片識別;而在多人人體解析、菜品類圖像識別競賽中獲得第二名。
視頻動作識別被視為 ActivityNet 中最核心、最基礎的任務。在本屆 ActivityNet 視頻動作識別任務(Kinetics)比賽中,共有 15 支來自于美國卡耐基梅隆大學、百度、Facebook 人工智能研究院、上海交通大學 MVIG 實驗室等國際知名研究機構(gòu)的參賽隊伍。而京東 AI 憑借著他們所提出的一種新框架——通過局部和全局特征傳播(LGD)學習視頻中的空間、時間特征,最終在眾多強勁參賽者中脫穎而出。
在精細圖像識別 (Fine-Grained Visual Categorization) 學術(shù)比賽中,今年比賽圖片數(shù)量和商品數(shù)據(jù)類別分別是去年的 5 倍和 40 倍,挑戰(zhàn)性相應也有大幅度提升;全球共有 96 支隊伍、152 位選手通過 1600 次提交參加了競賽,而最終京東 AI 靠著基于自研的全新精細圖像分類算法獲得了冠軍。該算法通過按塊「破壞」圖像中的結(jié)構(gòu)信息,然后再令已經(jīng)訓練的神經(jīng)網(wǎng)絡進行重點視覺區(qū)域識別與抓取,進而識別物品本身;更值得注意的是,這一技術(shù)不光可以達到高準確率,同時還有很強的兼容性。相關研究成果更多詳情可在論文《Destruction and Construction Learning for Fine-grained ImageRecognition》(https://docs.wps.cn/view/p/35402900346?from=docs&source=docsWeb)中獲得。
在 CVPR 2019 上,字節(jié)跳動一共有 11 篇論文被接收,其中有兩篇入選為 oral。而在學術(shù)比賽方面,字節(jié)跳動在人體姿態(tài)估計和人體分割比賽中,共收獲兩個冠軍、一個亞軍。
本屆 LIP(Look Into Person)國際競賽共吸引了超過 75 支隊伍參加,包括加州伯克利大學、NHN、悉尼科技大學、東南大學、上海交通大學、中國電子科技大學、香港中文大學等全球高校以及三星、百度、京東等科技企業(yè)的人工智能研究院機構(gòu)。
比賽共包含五個競賽任務:單人人體解析分割(the single-person human parsing)、單人人體姿態(tài)估計(the single-person pose estimation)、多人人體解析(the multi-person human parsing)、基于視頻的多人人體解析(multi-person video parsing, multi-person pose estimation benchmark)、基于圖像的服裝試穿(clothes virtual try-on benchmark)。最終,字節(jié)跳動和東南大學組成的團隊、以及肖斌帶領的字節(jié)跳動團隊并列單人人體姿態(tài)估計比賽的國際冠軍;同時,字節(jié)跳動和東南大學組成的團隊還獲得了單人人體分割賽道的國際亞軍。
其中,在單人人體姿態(tài)估計比賽上,字節(jié)跳動和東南大學組成的團隊提出了基于增強通道和空間信息的人體姿態(tài)估計網(wǎng)絡,可參考 CVPR 2019 論文《Multi-Person Pose Estimation with Enhanced Channel-wise and Spatial Information》(https://arxiv.org/abs/1905.03466);而肖斌帶領的字節(jié)跳動團隊則提出了利用高分辨率網(wǎng)絡(HRNet)來解決人體姿態(tài)估計問題,參考 CVPR 2019 論文《Deep High-Resolution Representation Learning for Human Pose Estimation》(https://arxiv.org/abs/1902.09212);后一種方法已在 GitHub 上開源,感興趣的朋友可以進行更深入的研究。
Github 地址
https://github.com/leoxiaobin/deep-high-resolution-net.pytorch
阿里 AI 在該競賽由谷歌、美國卡耐基梅隆大學、蘇黎世聯(lián)邦理工大學等機構(gòu)聯(lián)合全球視覺技術(shù)領域頂級學術(shù)會議 CVPR 發(fā)起的第三屆圖像識別競賽 WebVision 中獲得冠軍,要求參賽的 AI 模型將 1600 萬張圖片精準分類到 5000 個類目中,最終阿里的識別準確率 82.54%,將萬物識別領域的歷史紀錄提升了 3 個百分點。
而就在今年 3 月中,阿里與深圳大數(shù)據(jù)研究院、香港中文大學(深圳)、大連理工大學以及中國科學技術(shù)大學共同完成《Deep Reinforcement Learning of Volume-guided Progressive View Inpainting for 3D Point Scene Completion from a Single Depth Image》被收錄為 Oral Presentation。
之后與哈爾濱工業(yè)大學、香港理工大學、深圳鵬城實驗室聯(lián)合設計的超分辨率算法——能夠很好的應對模糊降質(zhì)的 DPSR 技術(shù)(來自論文《Deep Plug-and-Play Super-Resolution for Arbitrary Blur Kernels》),也被 CVPR 2019 所接收。并且該算法已經(jīng)開源了代碼(https://github.com/cszn/DPSR);在另一篇被接收的論文《ODE-Inspired Network Design for Single Image Super-Resolution》中,阿里與中科院、中科院大學也展示了他們一起在圖像超分辨率方面做出相應研究。
FGVC 全稱為 Fine-Grained Visual Categorization,即區(qū)分不同的動物和植物、汽車和摩托車模型、建筑風格等,是機器視覺社區(qū)剛剛開始解決的最有趣和最有用的開放問題之一。細粒度圖像分類在于基本的分類識別(對象識別)和個體識別(人臉識別,生物識別)之間的連續(xù)性;不同于傳統(tǒng)的廣義上的分類任務,F(xiàn)GVC 的挑戰(zhàn)致力于子類別的劃分,需要分類的對象之間更加相似,例如區(qū)分不同的魚類、同一植物不同形態(tài)、不同的生活用品等。
在今年 CVPR 的 FGVC6 Workshop 賽區(qū),共有十個挑戰(zhàn)賽,每個都代表了細粒度視覺分類在某個細分領域的挑戰(zhàn)。今年此次挑戰(zhàn)賽共有來自全球 88 個團隊參與,提交了超過 1300 份方案。而在 Kaggle 上舉辦的 CVPR 2019 Cassava Disease Classification(根據(jù)木薯的葉子區(qū)分不同種類的木薯疾病的任務)挑戰(zhàn)賽中,DeepBlue AI 通過圖像增強方法來降低過擬合的風險,并提高模型的魯棒性,同時利用多個在 ImageNet 表現(xiàn)優(yōu)異的模型,以集成方法提升精度,最終獲得了冠軍。
除了該項挑戰(zhàn)賽,同期深蘭科技還在在 CVPR 的另外兩項比賽 2019 Workshop on Autonomous Driving (WAD) D2-City & BDD100K Tracking Domain Adaptation Challenge and the D2-City & BDD100K Detection Domain Adaptation Challenge.(目標檢測遷移學習、目標跟蹤遷移學習挑戰(zhàn)賽和大規(guī)模檢測插值探索賽)分獲亞軍和季軍。
今年的 CVPR 上,機器學習圖像壓縮挑戰(zhàn)賽(CLIC)由 Google 聯(lián)合 twitter、Netflix 等贊助。如今由于手機像素的提升,占用大部分內(nèi)存空間的圖片對于移動存儲設備和網(wǎng)站來說都是很大的負擔;而對圖片進行高效高質(zhì)的壓縮處理,已經(jīng)成了眾多互聯(lián)網(wǎng)企業(yè)的極大需求。因此,在本屆會議上,圖像壓縮也成了技術(shù)焦點之一。
在去年,圖鴨科技曾奪得過該挑戰(zhàn)賽的 MS-SSIM 與 MOS 兩項第一;而今年,他們也帶來了更強的技術(shù),最終在 MS-SSIM、Transparent Track、PSNR、Perceptual Qualit 四項指標上均奪得桂冠,向世界展示了他們的技術(shù)硬實力,成為世界圖像壓縮歷史大滿貫贏家。
美團無人配送與視覺團隊在本屆 CVPR 上,也獲得了很好的成績,分別在障礙物軌跡預測挑戰(zhàn)賽(Trajectory prediction challenge)中斬獲第一名和商品識別挑戰(zhàn)賽(iMaterialist Challenge on Product Recognition)獲得第二名。
對于美團無人配送與視覺團隊來說,這不光只是一種榮譽,也向我們展現(xiàn)出了他們在自動駕駛技術(shù)和視覺圖像方面進行的大量研究和產(chǎn)品化探索,并在場景應用方面所積累的豐碩成果。
美圖影像實驗室 MTlab 此次參加了圖像增強和圖像去霧兩個比賽,兩個比賽均收到了超過 200 支團隊報名。
最終,在圖像增強賽道(Image Enhancement Challenge)中,美圖影像實驗室 MTlab 獲得了冠軍;在圖像去霧賽道(Image Dehazing Challenge),美圖影像實驗室 MTlab 獲得了季軍。
本屆 AI 城市大賽(AI City Challenge)共有來自全球超過 200 支頂尖隊伍參與,滴滴在 CVPR AI 城市比賽(AI City Challenge)中最終獲得了亞軍,并攜手加州大學伯克利分校 DeepDrive 深度學習自動駕駛產(chǎn)業(yè)聯(lián)盟(BDD)一同舉辦了 CVPR 2019 自動駕駛研討會,詳細介紹了滴滴在自動駕駛領域的探索和實踐。
雷鋒網(wǎng) AI 科技評論
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。