0
雷鋒網(wǎng)AI科技評論按:本文為曠視科技首席科學(xué)家孫劍日前在 CCF 與 KDD China 聯(lián)合主辦的ADL上做的題為《如何在大公司和創(chuàng)業(yè)公司做好計算機(jī)視覺研究》的分享,雷鋒網(wǎng)進(jìn)行了全文整理。以下是第二部分。
傳送門:曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機(jī)視覺的研究(一)
曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機(jī)視覺的研究(三)
孫劍博士(攝影:劉芳平)
孫劍,博士,曠視科技(Face++)首席科學(xué)家、研究負(fù)責(zé)人。2003年畢業(yè)于西安交通大學(xué)人工智能與機(jī)器人研究所,畢業(yè)后加入微軟亞洲研究院(Microsoft Research Asia),任至首席研究員。其主要研究方向是計算攝影學(xué)(computational photography)、人臉識別(face recognition)和基于深度學(xué)習(xí)的圖像理解(deep learning based image understanding)。自2002年以來在CVPR、ICCV、ECCV、SIGGRAPH、PAMI五個頂級學(xué)術(shù)會議和期刊上發(fā)表學(xué)術(shù)論文100+篇,Google Scholar 引用 20,000+次,H-index58,兩次獲得CVPR Best Paper Award (2009, 2016)。孫劍博士于2010年被美國權(quán)威技術(shù)期刊Technology Review評選為“全球35歲以下杰出青年創(chuàng)新者”。孫劍博士帶領(lǐng)的團(tuán)隊于2015年獲得圖像識別國際大賽五項冠軍(ImageNet分類,檢測和定位,MS COCO檢測和分割),其團(tuán)隊開發(fā)出來的“深度殘差網(wǎng)絡(luò)”和“基于區(qū)域的快速物體檢測”技術(shù)已經(jīng)被廣泛應(yīng)用在學(xué)術(shù)和工業(yè)界。同時孫劍帶領(lǐng)的團(tuán)隊的研究成果也廣泛被應(yīng)用在微軟Windows, Office, Bing, Azure, Surface, Xbox等多條產(chǎn)品線上。目前孫劍博士正在帶領(lǐng)曠視科技的研究團(tuán)隊推進(jìn)計算機(jī)視覺技術(shù)的進(jìn)步和探索其在工業(yè)和商業(yè)上的實踐。
以下為演講內(nèi)容,主要介紹了近期計算機(jī)視覺的發(fā)展現(xiàn)狀,ResNet基本原理和設(shè)計,曠視科技在計算機(jī)視覺的研究進(jìn)展等。最后他還分享了一些“如何在大公司和創(chuàng)業(yè)公司做好研究?”的心得。
物體檢測非常重要,還有另一類是文本檢測。我們都知道,文字的檢測其實是非常難的,而且與物體檢測也存在不同。
圖二十九
文字檢測的主要特點是它的流程(pipeline)非常長,從設(shè)計模塊、調(diào)整參數(shù)到訓(xùn)練都要花非常多的時間和心力。
圖三十
深度學(xué)習(xí)的精髓是做端到端的訓(xùn)練,曠視(Face++)研究院今年在 CVPR 上發(fā)了一篇論文,就是一個基于 FCN 的簡化文本檢測算法。輸入一張圖片后,系統(tǒng)會生成Geometry Map 和Score Map兩個Map,進(jìn)而實現(xiàn)端到端的識別,這也是文本檢測第一次能用一個這么小的模型實現(xiàn),這里是它的一些量化評測,在公開評測集上取得了非常好的效果。
圖三十一
圖三十二
我們的研究員正在用不同的方法做一個實時檢測的 demo,大家可以看到,這里其實并不涉及文字的識別。
圖三十三
第三部分我們關(guān)心的是語義分割。即如何把像素映射到一個有語義的標(biāo)記上來。
圖三十四
其中一個非常大的應(yīng)用就是無人車。即在感知的時候需要知道人和車的位置。其實用非深度學(xué)習(xí)的方式已經(jīng)做得非常不錯,但如果涉及更復(fù)雜的情況,用深度學(xué)習(xí)可以做得更好。
在這里我們會采用 FCN 的方法(fully convolutional network,全卷積網(wǎng)絡(luò)),用下采樣抽取后再上采樣回來,輸出一個 feature map 或是有語義的 map,以完成一個端到端的學(xué)習(xí)。
圖三十五
涉及的一個概念叫 receptive field(感受野),也就是卷積的特征到底能覆蓋多大的區(qū)域,而實際上還有一個叫有效感受野的(valid receptive field)概念,因為實際情況往往比理論上覆蓋的區(qū)域要小。
圖三十六
在研究中我們會發(fā)現(xiàn),做分類和分割實際上是不一樣的任務(wù)。分類的話,研究者會希望感受野越大越好,而分割則可能需要控制一下。
這和標(biāo)準(zhǔn)的 FCN 還是有不同。如果你想識別圖中的鳥的話,實際上我們還是需要一個很大的 receptive field 的。
圖三十七
我們曠視(Face++)實習(xí)生最近做了一個工作,他設(shè)計了一個方法,在大的 receptive field 或是大的 kernel 中也能實現(xiàn)很好的效果。這也是我們今年 CVPR 的一篇論文《Large-Kernel FCNs》,當(dāng)時(的結(jié)果)在 VOC 2012 Segmentation on Benchmark 上排在第一位。
圖三十八
以下是三個分類的核心問題。計算機(jī)還有一個問題就是 3D 感知問題,而且并不需要兩只眼睛,一只其實也可以實現(xiàn)先驗感知。
圖三十九
那么用深度學(xué)習(xí)是否能實現(xiàn) 3D 重建?自然是可以的。
目前研究員在研究如何用單張圖片實現(xiàn) 3D 重建。左邊是一個圖片,右邊是它構(gòu)建的 3D 點云??床灰姷牡胤轿覀冃枰孟闰灢乱幌驴赡苁鞘裁礃幼?。
圖四十
那么 3D 形態(tài)是如何構(gòu)建的?最難的地方是如何表示 3D。傳統(tǒng)方法包括用深度圖或是 mesh 等方法實現(xiàn),即判斷一個空間內(nèi)某個格子是否有這個物體。我們研究員采用的是 3D 點來表示物體的方法,能夠呈現(xiàn)連續(xù)的特點。
圖四十一
3D 數(shù)據(jù)庫訓(xùn)練了一個檢測的 pipeline,紅色列是輸入,二三列是輸出,根據(jù)先驗知識判斷,形成一些合成例子。
圖四十二
在提交論文前,我們在辦公室隨便拍了一些物體,也得到了一些還不錯的結(jié)果。這篇論文在 CVPR 上也拿了 oral paper。
圖四十三
圖四十四
由于時間有限,一些技術(shù)細(xì)節(jié)我們在這里就不詳細(xì)討論了。
在這里我想提一下我們曠視(Face++)自己有一個叫 Brain++的深度學(xué)習(xí)平臺,每個研究員或訪問學(xué)生只需要用虛擬機(jī)遠(yuǎn)程登錄就可以實現(xiàn)算法訓(xùn)練,甚至還包括數(shù)據(jù)管理、數(shù)據(jù)標(biāo)注和模型發(fā)布的整套系統(tǒng)。用戶標(biāo)注的數(shù)據(jù)可以直接上傳到系統(tǒng)中,經(jīng)過訓(xùn)練后就能直接發(fā)布模型了。
圖四十五
其中核心的一部分叫 megvii brain,是一個深度學(xué)習(xí)的訓(xùn)練引擎,大家可能都聽說過 caffe、TensorFlow 或 MXNet,那么你可以把 megvii brain 理解為 曠視(Face++)的「TensorFlow」。TensorFlow 已經(jīng)開源一年,而我們的 megvii brain 已經(jīng)兩年了。
為什么說曠視(Face++)是應(yīng)用深度學(xué)習(xí)比較早的公司呢?不只是在做應(yīng)用,其實底層的技術(shù)我們也在做,也開放應(yīng)用了。
圖四十六
好處在于,很多定制化的東西我們可以自己來做。相對 TF 這樣體量大的系統(tǒng),可能用戶在上面做一些改動就會產(chǎn)生很多問題。此外,引擎的占用內(nèi)存小,訓(xùn)練速度快,有很多東西是我們可以控制的。
前面我們提到了一些技術(shù),接下來會說說產(chǎn)品能做些什么事情。
Face++有兩類產(chǎn)品,一類是人臉識別的 FaceID;另一類是智能攝像頭。
FaceID 實際上就是為了解決一個問題:「如何驗證『你是你』?」
圖四十七
比如線上銀行開戶、或是 Uber 司機(jī)的身份驗證,目前也有很多方法,不過現(xiàn)在用得比較多的還是人臉識別的解決方案。
FaceID 的 App 身份驗證方案的流程是這樣的,用戶拍一張照片,通過活體檢測部分比對身份證信息,通過客戶端的 SDK 與云上的計算實現(xiàn)比對任務(wù)。而 SmartID 則屬于 SaaS 服務(wù),目前已經(jīng)應(yīng)用于非常多的領(lǐng)域,包括線上線下的銀行,還有以芝麻信用為代表的征信風(fēng)控業(yè)務(wù)都在用我們的服務(wù)。
圖四十八
前一陣 3·15 展示了如何破解人臉識別技術(shù),這里涉及到一個問題叫「活體攻擊問題」,其實反過來想,如果它已經(jīng)形成一個地下黑色產(chǎn)業(yè)鏈,說明已經(jīng)成為一個非常有價值的業(yè)務(wù)。
第二個方向則是智能攝像頭。
我們將算法嵌入攝像頭或計算盒子,主要方向是做家庭或公共安全的分析。大家可能了解過,中國的攝像頭數(shù)量超過世界上的一半,而超過一半的硬盤都被用于存儲視頻監(jiān)控內(nèi)容。
圖四十九
圖五十
我們來看看交通規(guī)劃方面,曠視(Face++)的產(chǎn)品能做些什么。如果你能分析清楚視頻中的人流車流的 ID,那么這也具有價值。
比如我們做了一套門禁系統(tǒng),員工上班時不需要打卡,只要走過這個玻璃門前,就能自動識別人臉。目前這套系統(tǒng)也已經(jīng)獲得上百家公司的應(yīng)用。
此外,我們還可以根據(jù)這套系統(tǒng)做一些改變。比如中國每年有很多展會,在注冊服務(wù)上可能需要很多的人手跟進(jìn),那么我們這款產(chǎn)品就能打造成一個基于人臉識別的自動注冊系統(tǒng)。
圖五十一
有了這些產(chǎn)品,勢必會產(chǎn)生非常大的數(shù)據(jù),目前 曠視(Face++)的開放平臺 API 被調(diào)用的數(shù)據(jù)在 2016 年達(dá)到了 60 億次,很快會接近 100 億次。而我們的 Smart ID 也已經(jīng)服務(wù)超過上億人(不是上億人次)。
從感知智能到認(rèn)知智能
我們也希望實現(xiàn)「技術(shù)-產(chǎn)品-數(shù)據(jù)」的一個閉環(huán),也是通過服務(wù)不同的行業(yè)實現(xiàn) AI+的方式。我們再回到人工智能。
圖五十二
圖五十三
左邊的綠色表示的是擬合映射的任務(wù),用一個函數(shù) F(x)就把很多內(nèi)容解決了,提供大規(guī)模的標(biāo)注數(shù)據(jù)就可以實現(xiàn)。但右邊的任務(wù)就不是一步法就能做的,涉及很多的判斷,而且右邊的內(nèi)容可能無法提供一個大的訓(xùn)練環(huán)境。雖然目前有很多新技術(shù),也有大量的投入,但還沒有很多進(jìn)展。
圖五十四
計算機(jī)視覺雖然我劃在左邊,但實際上它也涉及右邊的認(rèn)知過程,比如系統(tǒng)能能夠判斷一個視頻里面的內(nèi)容,而這就涉及到很多 language 和常識的支持。
那么如何從感知智能向認(rèn)知智能轉(zhuǎn)變呢?
我從一本 2004 年的書中得到很多靈感,它的名字叫《On Intelligence》。作者 Jeff Hawkins 創(chuàng)建了一個研究院,研究如何做類似人腦智能的內(nèi)容,雖然研究院規(guī)模不大,成果也尚不足以證明什么,但書中提出的思想都非常早,包括如何利用存儲機(jī)做人工智能。
圖五十五
現(xiàn)在訓(xùn)練神經(jīng)網(wǎng)絡(luò)是沒有內(nèi)存的,而人類擁有記憶,根據(jù)書本、知識將內(nèi)容傳承下來。那么像 Facebook、Google 這樣的公司都在做 Memory mechanism 的學(xué)習(xí)系統(tǒng),要解決的核心內(nèi)容在于要存儲哪些內(nèi)容,讀取哪些內(nèi)容,又該做怎樣的聯(lián)想。比如人類記得一首歌、記得一句話,是按一定的順序記憶的,如果反過來,可能我們都回憶不起來。
圖五十六
此外,很多知識是分層結(jié)構(gòu)的。因此這些內(nèi)容如何以一個合理的機(jī)制存在,是我一直非常關(guān)注的研究方向。
另一個我自己覺得非常有意思的內(nèi)容是無監(jiān)督的預(yù)測。它的基本思想是說,人在學(xué)習(xí)過程中是需要和物理世界發(fā)生交互的,而人類通過觀察現(xiàn)實世界就能學(xué)習(xí)到很多東西,不需要進(jìn)行額外的標(biāo)記。雖然我們不否認(rèn)家長的重要性,但小孩學(xué)習(xí)的很多東西,也有很多不是父母教的。孩子在觀察世界、與世界互動的過程中,包括基因傳承的一些內(nèi)容,就會自發(fā)地學(xué)習(xí)。
舉個例子,我們衡量智商會通過 IQ 測試,比如給出一列數(shù)字,讓你預(yù)測下一個數(shù)字是什么,或給一串文字,讓你判斷下一個文字。對將要發(fā)生事情的預(yù)測,是一個非常重要的監(jiān)督信號,能夠在整個學(xué)習(xí)過程中運用?,F(xiàn)在有很多的研究,通過一段視頻,判斷下一幀的內(nèi)容是什么;或通過一個圖片預(yù)測另一個視角的樣子。在這些過程中系統(tǒng)都能學(xué)到預(yù)測的特征。
在做深度學(xué)習(xí)時,我做過一篇論文叫《An associate-predict model for face recognition》,解決的是人臉識別中不同姿態(tài)的問題。當(dāng)時我嘗試創(chuàng)建了一個外部存儲,通過存儲 memory 來做預(yù)測,效果非常好。但系統(tǒng)本身非常原始,而且是深度學(xué)習(xí)時代之前的一個研究內(nèi)容。
圖五十七
那么在無監(jiān)督預(yù)測中,比如真實世界里有一個南瓜,可能人類可以猜出南瓜后面大概長什么樣,這就是「image completion」問題,也是十幾年前我們做的一個研究,即通過圖形學(xué)的方法猜出背后的內(nèi)容。那么今天在感知世界中,我們可以對被遮擋的東西做很多的感知,一個是我們的能力,另一個是教我們?nèi)绾螌φ鎸嵤澜邕M(jìn)行推理和預(yù)測,通過很多觀察的過程進(jìn)行學(xué)習(xí)。
圖五十八
總而言之,人工智能很難,但我們從中也看到希望。這是朋友給我分享的一個圖片,希望我們能夠抵達(dá)一個至高點。在這個過程中,希望我們的技術(shù)商業(yè)數(shù)據(jù)能夠?qū)崿F(xiàn)循環(huán),而對于每一個從業(yè)者來說,我們也需要有足夠的熱情、洞察力和耐心去做這件事。
圖五十九
我為什么相信這件事呢?今天世界上所有最聰明的人都在投入做人工智能。這張照片是我參加 CTC 大會時拍的,以前這是一個圖形學(xué)的會議,會研究游戲怎么做。但近年來我參加這個會議,5000 人的圖形學(xué)大會都在研究怎么做深度學(xué)習(xí),更別說我們這些做機(jī)器學(xué)習(xí)的人了。
圖六十
曠視(Face++)也進(jìn)行了一個走入校園的活動,分享 CVPR 的五篇論文。曠視(Face++)也希望能找到「數(shù)學(xué)好、編程好、態(tài)度好」的三好學(xué)生,和我們一起 All in。
以上為雷鋒網(wǎng)整理的第二部分內(nèi)容,孫劍博士將在第三部分介紹如何在大公司和創(chuàng)業(yè)公司做好CV,敬請期待。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。