0
本文作者: AI科技評論 | 2018-06-22 18:44 |
?第 31 屆計(jì)算機(jī)視覺和模式識別大會 CVPR 2018(Conference on Computer Vision and Pattern Recognition)在 6 月 18 日至 22 日于美國鹽湖城召開。雷鋒網(wǎng) AI 科技評論作為唯一申請媒體通道的參會媒體,對 CVPR 2018 進(jìn)行了全程專題報道,為國內(nèi)讀者帶來更多的現(xiàn)場一手信息。
近年來,隨著深度學(xué)習(xí)的蓬勃發(fā)展,國內(nèi)企業(yè)深度參與人工智能學(xué)術(shù)頂會的態(tài)勢十分火熱,在一個享有國際聲譽(yù)的、被全球?qū)W者所認(rèn)可的學(xué)術(shù)會議上發(fā)出自己獨(dú)特的聲音,不僅是目前工業(yè)界涉足人工智能學(xué)術(shù)研究的一種展現(xiàn)形式,更是國內(nèi)外企業(yè)在吸引、招募研發(fā)人才的「兵家必爭之地」。
CVPR 既然是人工智能計(jì)算機(jī)視覺領(lǐng)域最受關(guān)注的學(xué)術(shù)會議,論文的投遞與收錄自然是展現(xiàn)企業(yè)學(xué)術(shù)實(shí)力的一項(xiàng)「硬指標(biāo)」。據(jù)了解,今年 CVPR 2018 共有 979 篇論文被主會收錄,錄用率約為 29%。而在眾多來自工業(yè)界的論文中,成立于 2011 年的曠視科技今年在 CVPR 上共有 1 篇 spotlight 論文及 7 篇 poster 論文被主會收錄。包括 ShuffleNet 移動端低功耗設(shè)備模型、語義分割的判別特征網(wǎng)絡(luò) DFN、優(yōu)化解決密集遮擋問題的 RepLoss 、通過角點(diǎn)定位和區(qū)域分割檢測場景文本的全新算法,以及能復(fù)原扭曲文檔圖像的 DocUNet 等多項(xiàng)技術(shù),向與會學(xué)者們展現(xiàn)了他們在學(xué)術(shù)研究上的實(shí)力。
例如,判別特征網(wǎng)絡(luò) DFN 有效解決了語義分割的兩個基本問題——類內(nèi)不一致與類間無差別。新型損失函數(shù) RepLoss 有效處理了行人檢測中密集遮擋的難題。
此外,還有兩篇挑戰(zhàn)賽冠軍論文——人體姿態(tài)估計(jì)(CPN)及 COCO 2017 物體檢測相關(guān)賽事的算法(MegDet)解讀,也同樣被 CVPR 2018 收錄。(雷鋒網(wǎng) AI 科技評論也對相關(guān)論文做了報道,見這里)
級聯(lián)金字塔網(wǎng)絡(luò) CPN 以解決多人姿態(tài)估計(jì)問題,這一技術(shù)突破將促進(jìn)人體姿態(tài)估計(jì)相關(guān)應(yīng)用領(lǐng)域的發(fā)展,比如游戲動畫、安防(異常行為檢測等)和體育(裁判輔助等)。
MegDet 從 mini-batch 角度為加速深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練提供了一種新型檢測方法,從精度和速度兩個核心維度優(yōu)化了物體檢測技術(shù),可以直接應(yīng)用在安防、新零售和無人駕駛等領(lǐng)域。
在主會議的前一天晚上,曠視科技于現(xiàn)場召開了「鹽湖城 AI 之夜」,聯(lián)合 Altizure 與疊境科技舉辦了一場計(jì)算機(jī)視覺青年學(xué)者交流會。曠視科技首席科學(xué)家、曠視研究院院長孫劍,曠視科技西雅圖研究院長王玨,香港科技大學(xué)教授權(quán)龍及上??萍即髮W(xué)教授、疊境科技創(chuàng)始人虞晶怡出席了本次交流會,同時吸引了超過 250 名參會者。?
孫劍博士首先代表曠視科技?xì)g迎與會的老師同學(xué)們,并簡要介紹了曠視科技目前的發(fā)展現(xiàn)狀及舉辦青年學(xué)者交流會的目的。如何既做好基礎(chǔ)研究,也做好產(chǎn)品技術(shù)?孫劍博士引用了大學(xué)自動控制老師的教導(dǎo):既做神,也做鬼。既要腳踏實(shí)地,又要仰望星空,一家企業(yè)的基礎(chǔ)研究建設(shè)絕非一朝一夕所能達(dá)成,它也將為產(chǎn)品的落地提供扎實(shí)的技術(shù)實(shí)力。王玨博士、權(quán)龍教授和虞晶怡教授也相繼上臺發(fā)表講話?,F(xiàn)場不僅有堪稱本屆CVPR最為美味的點(diǎn)心,還有各種品類的美酒供與會者享用,更重要的是,現(xiàn)場還進(jìn)行了激動人心的抽獎環(huán)節(jié)。
在孫劍博士看來,論文并不是工業(yè)界做研究的必然結(jié)果。以去年 7 月就已經(jīng)被大家熟悉并被業(yè)界廣泛使用的 ShuffleNet 為例,對于企業(yè)而言,不論是否有論文產(chǎn)出的需求,如何設(shè)計(jì)更為輕量級的模型結(jié)構(gòu)一直是移動端應(yīng)用落地的重要問題。因此,曠視科技團(tuán)隊(duì)以高效卷積層設(shè)計(jì)減少計(jì)算復(fù)雜度的方式,提升了內(nèi)存訪問效率和計(jì)算速度。在去年完成這一論文并投遞 CVPR 2018 后,團(tuán)隊(duì)也并沒有止步于此,早在 VALSE 2018 上已對 V2 版本有所披露。
但是,產(chǎn)業(yè)界的研究與做學(xué)術(shù)研究其實(shí)也有著共通之處,在孫劍博士的理解中都會遵循某種 pattern:先從精度入手以探尋認(rèn)知邊界,再進(jìn)一步考慮速度和效率因素,最終達(dá)成一個超過產(chǎn)品實(shí)用紅線的平衡點(diǎn)。本次曠視科技舉辦「鹽湖城 AI 之夜」,旨在吸引更多對計(jì)算機(jī)視覺、對AI感興趣的志同道合者齊聚一堂,并在招賢納才上提供更多的交流途徑。
在今年 CVPR 2018 上,曠視科技也分別在兩項(xiàng)挑戰(zhàn)賽上斬獲單項(xiàng)雙料冠軍——AVA 和 WAD。曠視科技累計(jì)獲得過 15 項(xiàng)人工智能技術(shù)評測冠軍,早在 2013 年 12 月便成為了世界上首個拿到人臉識別三項(xiàng)世界冠軍的公司,并在 2017 年 10 月成為首個拿下 COCO、Places 全球圖像識別大賽三項(xiàng)冠軍的國內(nèi)公司。
今年在 CVPR workshop上已舉辦至第三屆的 ActivityNet Challenge(ActivityNet Large-Scale Activity Recognition Challenge)旨在進(jìn)一步拓展視頻語義理解的邊界。其中的 Task B——時空行為定位(Spatio-temporal Action Localization)依據(jù) AVA 數(shù)據(jù)集,試圖評估算法對人類行為時空信息的定位能力,其中每個標(biāo)注的視頻片段連續(xù)且超過 15 分鐘,包含多個主體,每個主體有多個行為;在 #1 (Vision Only) 以及 #2 (Full) 兩個挑戰(zhàn)賽中,曠視科技均獲得第一名。
?曠視科技 Research Leader、Detection 組負(fù)責(zé)人俞剛博士介紹,這一任務(wù)將動作細(xì)化到了原子級別,需要在任務(wù)中判斷人類行為主體的位置,發(fā)生了哪些動作,又與其它物體/其它人發(fā)生了哪些交互。行為時空信息的定位能力在視頻分析上有著非常大的意義。
WAD(Workshop on Autonomous Driving)同樣是一項(xiàng)由 CVPR 2018 workshop 主辦的自動駕駛識別挑戰(zhàn)賽,其中的 Task 4 ——實(shí)例視頻分割(Instance-level Video Segmentation)要求參賽者在一幀之內(nèi)實(shí)現(xiàn)對移動物體(比如汽車和行人)實(shí)例級別的分割。這一賽事基于百度提供的標(biāo)注精良的大規(guī)模數(shù)據(jù)集 ApolloScape,該數(shù)據(jù)集已經(jīng)開放了 14.7 萬幀的像素級語義標(biāo)注圖像,包括感知分類和路網(wǎng)數(shù)據(jù)等數(shù)十萬幀逐像素語義分割標(biāo)注的高分辨率圖像數(shù)據(jù),以及與其對應(yīng)的逐像素語義標(biāo)注,并將進(jìn)一步涵蓋更復(fù)雜的環(huán)境、天氣和交通狀況,添加更多的傳感器來擴(kuò)充數(shù)據(jù)的多樣性。按照百度 Apollo 方面的說法,ApolloScape 的標(biāo)注精細(xì)度已經(jīng)超過同類型的 KITTI、Cityscapes 數(shù)據(jù)集,也超過 UC Berkley 最新發(fā)布的 BDD100K 數(shù)據(jù)集。
?俞剛博士和在曠視科技實(shí)習(xí)的清華大學(xué)博士生黎澤明表示,盡管曠視科技目前并無涉足自動駕駛領(lǐng)域,但團(tuán)隊(duì)本次參加自動駕駛相關(guān)的挑戰(zhàn)賽有兩個主要目的。一個是驗(yàn)證自身算法的能力,測試在不同應(yīng)用場景下的算法通用性;另一方面則是檢驗(yàn)自身對算法的掌握性。而本次獲得雙料冠軍,也印證了曠視科技在技術(shù)上的積累與對算法應(yīng)用于不同場景的良好掌控。
自然地,在一個聚集 6500 多名計(jì)算機(jī)視覺人才的學(xué)術(shù)頂會上,如何在現(xiàn)場更好地呈現(xiàn)自己的技術(shù)也成為了每個企業(yè)需要面臨的命題。作為鉆石贊助商的曠視科技也一口氣展出了 10 余個 demo。正如孫劍博士所言:「做計(jì)算機(jī)視覺最好玩的就是可以做很多好看、好玩、好用的黑科技。」
除了艾瑞思 VSLAM 的倉儲機(jī)器技術(shù)是唯一的演示視頻,「街頭霸王對打」出于場地和網(wǎng)絡(luò)延遲的考慮也采用了視頻演示的方式之外,曠視科技本次在 CVPR 2018 上的其它所有 demo 均是實(shí)時演示,以更好地與現(xiàn)場的與會者進(jìn)行互動,而在體驗(yàn)的過程中,大家也能充分感受到曠視對于技術(shù)的一份實(shí)力和自信。
孫劍博士介紹道,「計(jì)算機(jī)視覺的真正威力在于線下場景的實(shí)時系統(tǒng)中。曠視本次帶過來的一些 demo 都是組里覺得比較好玩,又具有實(shí)際意義的項(xiàng)目。像街頭霸王這個 demo,也是兩個星期前同事們測試完成的,用戶可以借助肢體動作,實(shí)時控制街頭霸王游戲中角色的操作。它的背后其實(shí)應(yīng)用了人體檢測(Human Detection)、多人姿態(tài)估計(jì)(Multi-Person Pose Estimation)和實(shí)時動作識別(Real-time Action Recognition)等多種技術(shù),未來在零售、安防等領(lǐng)域都具有非常多的實(shí)際應(yīng)用意義?!?/p>
艾瑞思(Ares)倉儲機(jī)器人的 demo 視頻演示了曠視 SLAM 機(jī)器人的技術(shù)與應(yīng)用場景,在建圖、定位、導(dǎo)航、避障等功能上,能夠創(chuàng)建室內(nèi)高精地圖,擁有魯棒精確的實(shí)時定位并能實(shí)時進(jìn)行柔性行人避障,在物流、工業(yè)制造、新零售領(lǐng)域具有廣泛應(yīng)用前景。?
密集場景人群檢測數(shù)據(jù)集 CrowdHuman 于今年 5 月開源,為密集場景下的檢測難題提供了具有價值的研究工作。據(jù)俞剛博士表示,在密集場景之下做檢測是一項(xiàng)非常有挑戰(zhàn)、有實(shí)際需求的工作, CrowdHuman 數(shù)據(jù)集正是為此而生。這個 benchmark 的特點(diǎn)是主要做行人檢測,一方面,數(shù)據(jù)標(biāo)注涵蓋頭部位置,人體的可見框和完整框,并且人框與頭框之間有綁定關(guān)系;另一方面,該數(shù)據(jù)集具有一定的泛化能力,包括 Caltech、CityPerson 和 COCO 。
本次在 CVPR 上展示的 Demo 算法基于特征金字塔網(wǎng)絡(luò) FPN, 在 CrowdHuman 數(shù)據(jù)集上訓(xùn)練,使用了 Repulsion Loss 和一些其他目前還沒有公開的方法(主要是為了解決 NMS 帶來的瓶頸)。可以看到,在會場這種密集人群的典型場景下,系統(tǒng)的表現(xiàn)相當(dāng)不錯。
除了密集場景人類檢測數(shù)據(jù)集 CrowdHuman外,非標(biāo)準(zhǔn)化商品智能收銀和 CVPR 論文作者識別兩個 demo 本次也在 CVPR 2018 上呈現(xiàn)。
曠視南京研究院帶來的智能輔助收銀解決了通常需要人工結(jié)算的非標(biāo)準(zhǔn)化商品的收銀問題。以面包店為例的 demo 場景可以在確保精度的同時大幅提升結(jié)算效率。此外,該系統(tǒng)可輕易擴(kuò)展到其它非標(biāo)品收銀的應(yīng)用中,將成為輔助非標(biāo)準(zhǔn)化商品收銀的 AI 利器。
「CVPR 作者識別」是為本次大會專門定制的 Koala 系統(tǒng)應(yīng)用案例(Koala 是一款由曠視科技研發(fā)的智能迎賓機(jī)器人),通過使用 Google Scholar、Twitter 上的作者公開信息為底庫,當(dāng)人臉出現(xiàn)在攝像頭可視范圍內(nèi)時,Koala 將自動檢測出視頻中的人臉并提取人臉特征。若被攝者是會議作者之一,姓名、H-index 以及本次會議發(fā)表的代表性論文將會展示在彈出卡片上。
在展會現(xiàn)場,雷鋒網(wǎng)還看到了曠視科技帶來的眾多移動端 demo。像移動端實(shí)時通用物體和人體關(guān)鍵點(diǎn)檢測這兩個 demo,在精度與速度上都推動了產(chǎn)業(yè)化落地的速度,未來有期在各種場景的檢測上發(fā)揮作用。
再比如目前已經(jīng)應(yīng)用在數(shù)十款安卓手機(jī)的人臉實(shí)時解鎖技術(shù),融合識別、活體檢測、注意力判斷等多項(xiàng)技術(shù)的這一功能可以幫助手機(jī)在安全情境下進(jìn)行高效自然解鎖。
而 Animoji 是一款基于深度學(xué)習(xí)的三維重建應(yīng)用,能將人類表情進(jìn)行實(shí)時分析,并轉(zhuǎn)移到可愛的卡通形象中,可應(yīng)用于實(shí)時視頻聊天、表情包制作等多項(xiàng)功能。
此外,還有以手機(jī)背景虛化和手機(jī)人像光效技術(shù)為代表的移動端「黑科技」,目前都是北京研究院與西雅圖研究院聯(lián)合研發(fā)的工作。西雅圖研究院負(fù)責(zé)人王玨表示,從去年一直到未來相當(dāng)長一段時間,西雅圖研究院的主要工作會集中在移動端,特別是手機(jī)方面。
手機(jī)所面臨的人工智能相關(guān)命題主要有兩方面,一個是安全,即解鎖、支付等相關(guān)功能,涉及人臉識別、活體檢測等功能;另一個是影像,即美顏、濾鏡等圖像視頻處理需求,涵蓋三維重建、圖像分割等工作。
作為前美國 Adobe 研究院首席科學(xué)家,王玨博士在去年 5 月加入曠視科技之后,曠視也開始更多涉及影像領(lǐng)域的研究。手機(jī)作為一個復(fù)雜性極高的計(jì)算機(jī)系統(tǒng),如何充分挖掘它的計(jì)算資源,這也對模型的性能及功耗提出了更高的要求。而在研發(fā)的過程中,王玨博士也深刻體會到曠視科技的扁平化管理在異地協(xié)作的高效率,讓溝通和決策變得非??焖伲@也讓曾經(jīng)囿于大公司冗長流程的他感到驚喜不已。
對于一個研發(fā)人員占比超過 50% 的企業(yè),曠視科技密切關(guān)注研究體系的建設(shè)與投入。自2017 年起,從體系架構(gòu)和學(xué)術(shù)合作領(lǐng)域向全球范圍延伸。曠視科技先后在美國西雅圖、南京及成都設(shè)立了研究分院,由孫劍博士統(tǒng)領(lǐng),王玨任西雅圖研究院負(fù)責(zé)人;在研究領(lǐng)域上,每個研究分院各有側(cè)重和分工:如西雅圖研究院注重北美市場的開拓,同時獨(dú)立承擔(dān)創(chuàng)新業(yè)務(wù)的研發(fā);南京研究院和成都研究院則分別圍繞金融智能(特別是智能零售)和智慧城市(重點(diǎn)關(guān)注智能倉儲)業(yè)務(wù)線展開基礎(chǔ)研發(fā)和產(chǎn)業(yè)落地的工作。
此外,與高校機(jī)構(gòu)保持密切合作也同樣成為曠視科技深化學(xué)術(shù)研究的一大途徑。同樣是在 2017 年開始,曠視先后與西安交通大學(xué)、香港科技大學(xué)、上海科技大學(xué)等高校建立人工智能聯(lián)合實(shí)驗(yàn)室;并在 2017 年成立學(xué)術(shù)委員會,由圖靈獎國內(nèi)唯一得主姚期智院士擔(dān)任首席顧問。
創(chuàng)業(yè)公司為何要做基礎(chǔ)研究,在孫劍博士的理解中包括兩個方面的原因:首先是自我實(shí)現(xiàn),研究員如果發(fā)現(xiàn)了一個具有創(chuàng)新性的突破點(diǎn),那么在發(fā)現(xiàn)的那一刻便已經(jīng)得到了最大的滿足感;其次是外部認(rèn)可,在學(xué)術(shù)會議上發(fā)表論文、或是將產(chǎn)品落地到實(shí)際應(yīng)用上,會讓更多的人看到并認(rèn)可你的想法,得到又一次的正向反饋。
「曠視是一家有追求的公司。這個追求包含兩個方面的含義,一個是,團(tuán)隊(duì)的每個人都希望能做最頂尖的技術(shù);另一個是,企業(yè)在商業(yè)化落地能腳踏實(shí)地,產(chǎn)品可以真正為用戶帶來價值?!雇醌k博士認(rèn)為,從更長遠(yuǎn)的角度來看,曠視科技不僅希望在 AI 領(lǐng)域,更希望能在整個科技領(lǐng)域成為重要的助推者甚至是領(lǐng)導(dǎo)者?!笧榱巳斯ぶ悄芙K將創(chuàng)造的所有美好」,也是曠視科技對這一信念的最佳詮釋。
「追求極致,簡單可靠」,是曠視科技一直以來秉承的研究價值觀。不論是理論還是算法,孫劍博士及其團(tuán)隊(duì)都希望能做出一些簡單而實(shí)用的工作,也為吸引具有同樣價值觀的人才埋下注腳?!冈趧?chuàng)新的過程中,自我實(shí)現(xiàn)所帶來的價值會不斷地激勵整個團(tuán)隊(duì)往前走,而外部的認(rèn)可又會吸引更多的群體加入曠視科技,形成良性循環(huán)?!箤O劍博士如是說。在本次 CVPR 2018 上,憑借 8 篇論文、10+ Demo、雙料挑戰(zhàn)賽冠軍經(jīng)驗(yàn)分享,加上同期的 CV 線下分享交流會,曠視科技向 6000 名 CVPR 2018 學(xué)者們帶來了一場產(chǎn)學(xué)研緊密融合的盛宴,相信在未來,曠視也會持續(xù)向用戶們帶來更多精彩的最新落地成果,吸引更多的青年學(xué)生們加入這個務(wù)實(shí)求真的團(tuán)隊(duì)當(dāng)中。
雷鋒網(wǎng) AI 科技評論報道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。