0
本文作者: AI科技評論 | 2018-06-22 18:44 |
?第 31 屆計算機視覺和模式識別大會 CVPR 2018(Conference on Computer Vision and Pattern Recognition)在 6 月 18 日至 22 日于美國鹽湖城召開。雷鋒網(wǎng) AI 科技評論作為唯一申請媒體通道的參會媒體,對 CVPR 2018 進行了全程專題報道,為國內(nèi)讀者帶來更多的現(xiàn)場一手信息。
近年來,隨著深度學(xué)習(xí)的蓬勃發(fā)展,國內(nèi)企業(yè)深度參與人工智能學(xué)術(shù)頂會的態(tài)勢十分火熱,在一個享有國際聲譽的、被全球?qū)W者所認可的學(xué)術(shù)會議上發(fā)出自己獨特的聲音,不僅是目前工業(yè)界涉足人工智能學(xué)術(shù)研究的一種展現(xiàn)形式,更是國內(nèi)外企業(yè)在吸引、招募研發(fā)人才的「兵家必爭之地」。
CVPR 既然是人工智能計算機視覺領(lǐng)域最受關(guān)注的學(xué)術(shù)會議,論文的投遞與收錄自然是展現(xiàn)企業(yè)學(xué)術(shù)實力的一項「硬指標(biāo)」。據(jù)了解,今年 CVPR 2018 共有 979 篇論文被主會收錄,錄用率約為 29%。而在眾多來自工業(yè)界的論文中,成立于 2011 年的曠視科技今年在 CVPR 上共有 1 篇 spotlight 論文及 7 篇 poster 論文被主會收錄。包括 ShuffleNet 移動端低功耗設(shè)備模型、語義分割的判別特征網(wǎng)絡(luò) DFN、優(yōu)化解決密集遮擋問題的 RepLoss 、通過角點定位和區(qū)域分割檢測場景文本的全新算法,以及能復(fù)原扭曲文檔圖像的 DocUNet 等多項技術(shù),向與會學(xué)者們展現(xiàn)了他們在學(xué)術(shù)研究上的實力。
例如,判別特征網(wǎng)絡(luò) DFN 有效解決了語義分割的兩個基本問題——類內(nèi)不一致與類間無差別。新型損失函數(shù) RepLoss 有效處理了行人檢測中密集遮擋的難題。
此外,還有兩篇挑戰(zhàn)賽冠軍論文——人體姿態(tài)估計(CPN)及 COCO 2017 物體檢測相關(guān)賽事的算法(MegDet)解讀,也同樣被 CVPR 2018 收錄。(雷鋒網(wǎng) AI 科技評論也對相關(guān)論文做了報道,見這里)
級聯(lián)金字塔網(wǎng)絡(luò) CPN 以解決多人姿態(tài)估計問題,這一技術(shù)突破將促進人體姿態(tài)估計相關(guān)應(yīng)用領(lǐng)域的發(fā)展,比如游戲動畫、安防(異常行為檢測等)和體育(裁判輔助等)。
MegDet 從 mini-batch 角度為加速深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練提供了一種新型檢測方法,從精度和速度兩個核心維度優(yōu)化了物體檢測技術(shù),可以直接應(yīng)用在安防、新零售和無人駕駛等領(lǐng)域。
在主會議的前一天晚上,曠視科技于現(xiàn)場召開了「鹽湖城 AI 之夜」,聯(lián)合 Altizure 與疊境科技舉辦了一場計算機視覺青年學(xué)者交流會。曠視科技首席科學(xué)家、曠視研究院院長孫劍,曠視科技西雅圖研究院長王玨,香港科技大學(xué)教授權(quán)龍及上??萍即髮W(xué)教授、疊境科技創(chuàng)始人虞晶怡出席了本次交流會,同時吸引了超過 250 名參會者。?
孫劍博士首先代表曠視科技歡迎與會的老師同學(xué)們,并簡要介紹了曠視科技目前的發(fā)展現(xiàn)狀及舉辦青年學(xué)者交流會的目的。如何既做好基礎(chǔ)研究,也做好產(chǎn)品技術(shù)?孫劍博士引用了大學(xué)自動控制老師的教導(dǎo):既做神,也做鬼。既要腳踏實地,又要仰望星空,一家企業(yè)的基礎(chǔ)研究建設(shè)絕非一朝一夕所能達成,它也將為產(chǎn)品的落地提供扎實的技術(shù)實力。王玨博士、權(quán)龍教授和虞晶怡教授也相繼上臺發(fā)表講話?,F(xiàn)場不僅有堪稱本屆CVPR最為美味的點心,還有各種品類的美酒供與會者享用,更重要的是,現(xiàn)場還進行了激動人心的抽獎環(huán)節(jié)。
在孫劍博士看來,論文并不是工業(yè)界做研究的必然結(jié)果。以去年 7 月就已經(jīng)被大家熟悉并被業(yè)界廣泛使用的 ShuffleNet 為例,對于企業(yè)而言,不論是否有論文產(chǎn)出的需求,如何設(shè)計更為輕量級的模型結(jié)構(gòu)一直是移動端應(yīng)用落地的重要問題。因此,曠視科技團隊以高效卷積層設(shè)計減少計算復(fù)雜度的方式,提升了內(nèi)存訪問效率和計算速度。在去年完成這一論文并投遞 CVPR 2018 后,團隊也并沒有止步于此,早在 VALSE 2018 上已對 V2 版本有所披露。
但是,產(chǎn)業(yè)界的研究與做學(xué)術(shù)研究其實也有著共通之處,在孫劍博士的理解中都會遵循某種 pattern:先從精度入手以探尋認知邊界,再進一步考慮速度和效率因素,最終達成一個超過產(chǎn)品實用紅線的平衡點。本次曠視科技舉辦「鹽湖城 AI 之夜」,旨在吸引更多對計算機視覺、對AI感興趣的志同道合者齊聚一堂,并在招賢納才上提供更多的交流途徑。
在今年 CVPR 2018 上,曠視科技也分別在兩項挑戰(zhàn)賽上斬獲單項雙料冠軍——AVA 和 WAD。曠視科技累計獲得過 15 項人工智能技術(shù)評測冠軍,早在 2013 年 12 月便成為了世界上首個拿到人臉識別三項世界冠軍的公司,并在 2017 年 10 月成為首個拿下 COCO、Places 全球圖像識別大賽三項冠軍的國內(nèi)公司。
今年在 CVPR workshop上已舉辦至第三屆的 ActivityNet Challenge(ActivityNet Large-Scale Activity Recognition Challenge)旨在進一步拓展視頻語義理解的邊界。其中的 Task B——時空行為定位(Spatio-temporal Action Localization)依據(jù) AVA 數(shù)據(jù)集,試圖評估算法對人類行為時空信息的定位能力,其中每個標(biāo)注的視頻片段連續(xù)且超過 15 分鐘,包含多個主體,每個主體有多個行為;在 #1 (Vision Only) 以及 #2 (Full) 兩個挑戰(zhàn)賽中,曠視科技均獲得第一名。
?曠視科技 Research Leader、Detection 組負責(zé)人俞剛博士介紹,這一任務(wù)將動作細化到了原子級別,需要在任務(wù)中判斷人類行為主體的位置,發(fā)生了哪些動作,又與其它物體/其它人發(fā)生了哪些交互。行為時空信息的定位能力在視頻分析上有著非常大的意義。
WAD(Workshop on Autonomous Driving)同樣是一項由 CVPR 2018 workshop 主辦的自動駕駛識別挑戰(zhàn)賽,其中的 Task 4 ——實例視頻分割(Instance-level Video Segmentation)要求參賽者在一幀之內(nèi)實現(xiàn)對移動物體(比如汽車和行人)實例級別的分割。這一賽事基于百度提供的標(biāo)注精良的大規(guī)模數(shù)據(jù)集 ApolloScape,該數(shù)據(jù)集已經(jīng)開放了 14.7 萬幀的像素級語義標(biāo)注圖像,包括感知分類和路網(wǎng)數(shù)據(jù)等數(shù)十萬幀逐像素語義分割標(biāo)注的高分辨率圖像數(shù)據(jù),以及與其對應(yīng)的逐像素語義標(biāo)注,并將進一步涵蓋更復(fù)雜的環(huán)境、天氣和交通狀況,添加更多的傳感器來擴充數(shù)據(jù)的多樣性。按照百度 Apollo 方面的說法,ApolloScape 的標(biāo)注精細度已經(jīng)超過同類型的 KITTI、Cityscapes 數(shù)據(jù)集,也超過 UC Berkley 最新發(fā)布的 BDD100K 數(shù)據(jù)集。
?俞剛博士和在曠視科技實習(xí)的清華大學(xué)博士生黎澤明表示,盡管曠視科技目前并無涉足自動駕駛領(lǐng)域,但團隊本次參加自動駕駛相關(guān)的挑戰(zhàn)賽有兩個主要目的。一個是驗證自身算法的能力,測試在不同應(yīng)用場景下的算法通用性;另一方面則是檢驗自身對算法的掌握性。而本次獲得雙料冠軍,也印證了曠視科技在技術(shù)上的積累與對算法應(yīng)用于不同場景的良好掌控。
自然地,在一個聚集 6500 多名計算機視覺人才的學(xué)術(shù)頂會上,如何在現(xiàn)場更好地呈現(xiàn)自己的技術(shù)也成為了每個企業(yè)需要面臨的命題。作為鉆石贊助商的曠視科技也一口氣展出了 10 余個 demo。正如孫劍博士所言:「做計算機視覺最好玩的就是可以做很多好看、好玩、好用的黑科技。」
除了艾瑞思 VSLAM 的倉儲機器技術(shù)是唯一的演示視頻,「街頭霸王對打」出于場地和網(wǎng)絡(luò)延遲的考慮也采用了視頻演示的方式之外,曠視科技本次在 CVPR 2018 上的其它所有 demo 均是實時演示,以更好地與現(xiàn)場的與會者進行互動,而在體驗的過程中,大家也能充分感受到曠視對于技術(shù)的一份實力和自信。
孫劍博士介紹道,「計算機視覺的真正威力在于線下場景的實時系統(tǒng)中。曠視本次帶過來的一些 demo 都是組里覺得比較好玩,又具有實際意義的項目。像街頭霸王這個 demo,也是兩個星期前同事們測試完成的,用戶可以借助肢體動作,實時控制街頭霸王游戲中角色的操作。它的背后其實應(yīng)用了人體檢測(Human Detection)、多人姿態(tài)估計(Multi-Person Pose Estimation)和實時動作識別(Real-time Action Recognition)等多種技術(shù),未來在零售、安防等領(lǐng)域都具有非常多的實際應(yīng)用意義。」
艾瑞思(Ares)倉儲機器人的 demo 視頻演示了曠視 SLAM 機器人的技術(shù)與應(yīng)用場景,在建圖、定位、導(dǎo)航、避障等功能上,能夠創(chuàng)建室內(nèi)高精地圖,擁有魯棒精確的實時定位并能實時進行柔性行人避障,在物流、工業(yè)制造、新零售領(lǐng)域具有廣泛應(yīng)用前景。?
密集場景人群檢測數(shù)據(jù)集 CrowdHuman 于今年 5 月開源,為密集場景下的檢測難題提供了具有價值的研究工作。據(jù)俞剛博士表示,在密集場景之下做檢測是一項非常有挑戰(zhàn)、有實際需求的工作, CrowdHuman 數(shù)據(jù)集正是為此而生。這個 benchmark 的特點是主要做行人檢測,一方面,數(shù)據(jù)標(biāo)注涵蓋頭部位置,人體的可見框和完整框,并且人框與頭框之間有綁定關(guān)系;另一方面,該數(shù)據(jù)集具有一定的泛化能力,包括 Caltech、CityPerson 和 COCO 。
本次在 CVPR 上展示的 Demo 算法基于特征金字塔網(wǎng)絡(luò) FPN, 在 CrowdHuman 數(shù)據(jù)集上訓(xùn)練,使用了 Repulsion Loss 和一些其他目前還沒有公開的方法(主要是為了解決 NMS 帶來的瓶頸)??梢钥吹?,在會場這種密集人群的典型場景下,系統(tǒng)的表現(xiàn)相當(dāng)不錯。
除了密集場景人類檢測數(shù)據(jù)集 CrowdHuman外,非標(biāo)準化商品智能收銀和 CVPR 論文作者識別兩個 demo 本次也在 CVPR 2018 上呈現(xiàn)。
曠視南京研究院帶來的智能輔助收銀解決了通常需要人工結(jié)算的非標(biāo)準化商品的收銀問題。以面包店為例的 demo 場景可以在確保精度的同時大幅提升結(jié)算效率。此外,該系統(tǒng)可輕易擴展到其它非標(biāo)品收銀的應(yīng)用中,將成為輔助非標(biāo)準化商品收銀的 AI 利器。
「CVPR 作者識別」是為本次大會專門定制的 Koala 系統(tǒng)應(yīng)用案例(Koala 是一款由曠視科技研發(fā)的智能迎賓機器人),通過使用 Google Scholar、Twitter 上的作者公開信息為底庫,當(dāng)人臉出現(xiàn)在攝像頭可視范圍內(nèi)時,Koala 將自動檢測出視頻中的人臉并提取人臉特征。若被攝者是會議作者之一,姓名、H-index 以及本次會議發(fā)表的代表性論文將會展示在彈出卡片上。
在展會現(xiàn)場,雷鋒網(wǎng)還看到了曠視科技帶來的眾多移動端 demo。像移動端實時通用物體和人體關(guān)鍵點檢測這兩個 demo,在精度與速度上都推動了產(chǎn)業(yè)化落地的速度,未來有期在各種場景的檢測上發(fā)揮作用。
再比如目前已經(jīng)應(yīng)用在數(shù)十款安卓手機的人臉實時解鎖技術(shù),融合識別、活體檢測、注意力判斷等多項技術(shù)的這一功能可以幫助手機在安全情境下進行高效自然解鎖。
而 Animoji 是一款基于深度學(xué)習(xí)的三維重建應(yīng)用,能將人類表情進行實時分析,并轉(zhuǎn)移到可愛的卡通形象中,可應(yīng)用于實時視頻聊天、表情包制作等多項功能。
此外,還有以手機背景虛化和手機人像光效技術(shù)為代表的移動端「黑科技」,目前都是北京研究院與西雅圖研究院聯(lián)合研發(fā)的工作。西雅圖研究院負責(zé)人王玨表示,從去年一直到未來相當(dāng)長一段時間,西雅圖研究院的主要工作會集中在移動端,特別是手機方面。
手機所面臨的人工智能相關(guān)命題主要有兩方面,一個是安全,即解鎖、支付等相關(guān)功能,涉及人臉識別、活體檢測等功能;另一個是影像,即美顏、濾鏡等圖像視頻處理需求,涵蓋三維重建、圖像分割等工作。
作為前美國 Adobe 研究院首席科學(xué)家,王玨博士在去年 5 月加入曠視科技之后,曠視也開始更多涉及影像領(lǐng)域的研究。手機作為一個復(fù)雜性極高的計算機系統(tǒng),如何充分挖掘它的計算資源,這也對模型的性能及功耗提出了更高的要求。而在研發(fā)的過程中,王玨博士也深刻體會到曠視科技的扁平化管理在異地協(xié)作的高效率,讓溝通和決策變得非??焖伲@也讓曾經(jīng)囿于大公司冗長流程的他感到驚喜不已。
對于一個研發(fā)人員占比超過 50% 的企業(yè),曠視科技密切關(guān)注研究體系的建設(shè)與投入。自2017 年起,從體系架構(gòu)和學(xué)術(shù)合作領(lǐng)域向全球范圍延伸。曠視科技先后在美國西雅圖、南京及成都設(shè)立了研究分院,由孫劍博士統(tǒng)領(lǐng),王玨任西雅圖研究院負責(zé)人;在研究領(lǐng)域上,每個研究分院各有側(cè)重和分工:如西雅圖研究院注重北美市場的開拓,同時獨立承擔(dān)創(chuàng)新業(yè)務(wù)的研發(fā);南京研究院和成都研究院則分別圍繞金融智能(特別是智能零售)和智慧城市(重點關(guān)注智能倉儲)業(yè)務(wù)線展開基礎(chǔ)研發(fā)和產(chǎn)業(yè)落地的工作。
此外,與高校機構(gòu)保持密切合作也同樣成為曠視科技深化學(xué)術(shù)研究的一大途徑。同樣是在 2017 年開始,曠視先后與西安交通大學(xué)、香港科技大學(xué)、上??萍即髮W(xué)等高校建立人工智能聯(lián)合實驗室;并在 2017 年成立學(xué)術(shù)委員會,由圖靈獎國內(nèi)唯一得主姚期智院士擔(dān)任首席顧問。
創(chuàng)業(yè)公司為何要做基礎(chǔ)研究,在孫劍博士的理解中包括兩個方面的原因:首先是自我實現(xiàn),研究員如果發(fā)現(xiàn)了一個具有創(chuàng)新性的突破點,那么在發(fā)現(xiàn)的那一刻便已經(jīng)得到了最大的滿足感;其次是外部認可,在學(xué)術(shù)會議上發(fā)表論文、或是將產(chǎn)品落地到實際應(yīng)用上,會讓更多的人看到并認可你的想法,得到又一次的正向反饋。
「曠視是一家有追求的公司。這個追求包含兩個方面的含義,一個是,團隊的每個人都希望能做最頂尖的技術(shù);另一個是,企業(yè)在商業(yè)化落地能腳踏實地,產(chǎn)品可以真正為用戶帶來價值。」王玨博士認為,從更長遠的角度來看,曠視科技不僅希望在 AI 領(lǐng)域,更希望能在整個科技領(lǐng)域成為重要的助推者甚至是領(lǐng)導(dǎo)者。「為了人工智能終將創(chuàng)造的所有美好」,也是曠視科技對這一信念的最佳詮釋。
「追求極致,簡單可靠」,是曠視科技一直以來秉承的研究價值觀。不論是理論還是算法,孫劍博士及其團隊都希望能做出一些簡單而實用的工作,也為吸引具有同樣價值觀的人才埋下注腳。「在創(chuàng)新的過程中,自我實現(xiàn)所帶來的價值會不斷地激勵整個團隊往前走,而外部的認可又會吸引更多的群體加入曠視科技,形成良性循環(huán)?!箤O劍博士如是說。在本次 CVPR 2018 上,憑借 8 篇論文、10+ Demo、雙料挑戰(zhàn)賽冠軍經(jīng)驗分享,加上同期的 CV 線下分享交流會,曠視科技向 6000 名 CVPR 2018 學(xué)者們帶來了一場產(chǎn)學(xué)研緊密融合的盛宴,相信在未來,曠視也會持續(xù)向用戶們帶來更多精彩的最新落地成果,吸引更多的青年學(xué)生們加入這個務(wù)實求真的團隊當(dāng)中。
雷鋒網(wǎng) AI 科技評論報道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。