曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

本文作者：奕欣

編輯：谷磊

2017-04-12 16:40

導(dǎo)語：本文為曠視科技首席科學(xué)家孫劍日前在 CCF 與 KDD China 聯(lián)合主辦的ADL上做的題為《如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺研究》的分享

雷鋒網(wǎng)AI科技評(píng)論按：本文為曠視科技首席科學(xué)家孫劍日前在 CCF 與 KDD China 聯(lián)合主辦的ADL上做的題為《如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺研究》的分享，雷鋒網(wǎng)進(jìn)行了全文整理。以下是第二部分。

傳送門：曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（一）

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（三）

孫劍博士（攝影：劉芳平）

孫劍，博士，曠視科技(Face++)首席科學(xué)家、研究負(fù)責(zé)人。2003年畢業(yè)于西安交通大學(xué)人工智能與機(jī)器人研究所，畢業(yè)后加入微軟亞洲研究院(Microsoft Research Asia)，任至首席研究員。其主要研究方向是計(jì)算攝影學(xué)(computational photography)、人臉識(shí)別(face recognition)和基于深度學(xué)習(xí)的圖像理解(deep learning based image understanding)。自2002年以來在CVPR、ICCV、ECCV、SIGGRAPH、PAMI五個(gè)頂級(jí)學(xué)術(shù)會(huì)議和期刊上發(fā)表學(xué)術(shù)論文100+篇，Google Scholar 引用 20,000+次，H-index58，兩次獲得CVPR Best Paper Award (2009, 2016)。孫劍博士于2010年被美國(guó)權(quán)威技術(shù)期刊Technology Review評(píng)選為“全球35歲以下杰出青年創(chuàng)新者”。孫劍博士帶領(lǐng)的團(tuán)隊(duì)于2015年獲得圖像識(shí)別國(guó)際大賽五項(xiàng)冠軍(ImageNet分類，檢測(cè)和定位，MS COCO檢測(cè)和分割)，其團(tuán)隊(duì)開發(fā)出來的“深度殘差網(wǎng)絡(luò)”和“基于區(qū)域的快速物體檢測(cè)”技術(shù)已經(jīng)被廣泛應(yīng)用在學(xué)術(shù)和工業(yè)界。同時(shí)孫劍帶領(lǐng)的團(tuán)隊(duì)的研究成果也廣泛被應(yīng)用在微軟Windows, Office, Bing, Azure, Surface, Xbox等多條產(chǎn)品線上。目前孫劍博士正在帶領(lǐng)曠視科技的研究團(tuán)隊(duì)推進(jìn)計(jì)算機(jī)視覺技術(shù)的進(jìn)步和探索其在工業(yè)和商業(yè)上的實(shí)踐。

以下為演講內(nèi)容，主要介紹了近期計(jì)算機(jī)視覺的發(fā)展現(xiàn)狀，ResNet基本原理和設(shè)計(jì)，曠視科技在計(jì)算機(jī)視覺的研究進(jìn)展等。最后他還分享了一些“如何在大公司和創(chuàng)業(yè)公司做好研究？”的心得。

文本檢測(cè)

物體檢測(cè)非常重要，還有另一類是文本檢測(cè)。我們都知道，文字的檢測(cè)其實(shí)是非常難的，而且與物體檢測(cè)也存在不同。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖二十九

文字檢測(cè)的主要特點(diǎn)是它的流程（pipeline）非常長(zhǎng)，從設(shè)計(jì)模塊、調(diào)整參數(shù)到訓(xùn)練都要花非常多的時(shí)間和心力。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖三十

深度學(xué)習(xí)的精髓是做端到端的訓(xùn)練，曠視（Face++）研究院今年在 CVPR 上發(fā)了一篇論文，就是一個(gè)基于 FCN 的簡(jiǎn)化文本檢測(cè)算法。輸入一張圖片后，系統(tǒng)會(huì)生成Geometry Map 和Score Map兩個(gè)Map，進(jìn)而實(shí)現(xiàn)端到端的識(shí)別，這也是文本檢測(cè)第一次能用一個(gè)這么小的模型實(shí)現(xiàn)，這里是它的一些量化評(píng)測(cè)，在公開評(píng)測(cè)集上取得了非常好的效果。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖三十一

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖三十二

我們的研究員正在用不同的方法做一個(gè)實(shí)時(shí)檢測(cè)的 demo，大家可以看到，這里其實(shí)并不涉及文字的識(shí)別。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖三十三

語義分割

第三部分我們關(guān)心的是語義分割。即如何把像素映射到一個(gè)有語義的標(biāo)記上來。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖三十四

其中一個(gè)非常大的應(yīng)用就是無人車。即在感知的時(shí)候需要知道人和車的位置。其實(shí)用非深度學(xué)習(xí)的方式已經(jīng)做得非常不錯(cuò)，但如果涉及更復(fù)雜的情況，用深度學(xué)習(xí)可以做得更好。

在這里我們會(huì)采用 FCN 的方法（fully convolutional network，全卷積網(wǎng)絡(luò)），用下采樣抽取后再上采樣回來，輸出一個(gè) feature map 或是有語義的 map，以完成一個(gè)端到端的學(xué)習(xí)。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖三十五

涉及的一個(gè)概念叫 receptive field（感受野），也就是卷積的特征到底能覆蓋多大的區(qū)域，而實(shí)際上還有一個(gè)叫有效感受野的（valid receptive field）概念，因?yàn)閷?shí)際情況往往比理論上覆蓋的區(qū)域要小。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖三十六

在研究中我們會(huì)發(fā)現(xiàn)，做分類和分割實(shí)際上是不一樣的任務(wù)。分類的話，研究者會(huì)希望感受野越大越好，而分割則可能需要控制一下。

這和標(biāo)準(zhǔn)的 FCN 還是有不同。如果你想識(shí)別圖中的鳥的話，實(shí)際上我們還是需要一個(gè)很大的 receptive field 的。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖三十七

我們曠視（Face++）實(shí)習(xí)生最近做了一個(gè)工作，他設(shè)計(jì)了一個(gè)方法，在大的 receptive field 或是大的 kernel 中也能實(shí)現(xiàn)很好的效果。這也是我們今年 CVPR 的一篇論文《Large-Kernel FCNs》，當(dāng)時(shí)（的結(jié)果）在 VOC 2012 Segmentation on Benchmark 上排在第一位。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖三十八

3D感知問題

以下是三個(gè)分類的核心問題。計(jì)算機(jī)還有一個(gè)問題就是 3D 感知問題，而且并不需要兩只眼睛，一只其實(shí)也可以實(shí)現(xiàn)先驗(yàn)感知。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖三十九

那么用深度學(xué)習(xí)是否能實(shí)現(xiàn) 3D 重建？自然是可以的。

目前研究員在研究如何用單張圖片實(shí)現(xiàn) 3D 重建。左邊是一個(gè)圖片，右邊是它構(gòu)建的 3D 點(diǎn)云。看不見的地方我們需要利用先驗(yàn)猜一下可能是什么樣子。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖四十

那么 3D 形態(tài)是如何構(gòu)建的？最難的地方是如何表示 3D。傳統(tǒng)方法包括用深度圖或是 mesh 等方法實(shí)現(xiàn)，即判斷一個(gè)空間內(nèi)某個(gè)格子是否有這個(gè)物體。我們研究員采用的是 3D 點(diǎn)來表示物體的方法，能夠呈現(xiàn)連續(xù)的特點(diǎn)。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖四十一

3D 數(shù)據(jù)庫訓(xùn)練了一個(gè)檢測(cè)的 pipeline，紅色列是輸入，二三列是輸出，根據(jù)先驗(yàn)知識(shí)判斷，形成一些合成例子。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖四十二

在提交論文前，我們?cè)谵k公室隨便拍了一些物體，也得到了一些還不錯(cuò)的結(jié)果。這篇論文在 CVPR 上也拿了 oral paper。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖四十三

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖四十四

由于時(shí)間有限，一些技術(shù)細(xì)節(jié)我們?cè)谶@里就不詳細(xì)討論了。

Brain＋＋深度學(xué)習(xí)平臺(tái)

在這里我想提一下我們曠視（Face++）自己有一個(gè)叫 Brain++的深度學(xué)習(xí)平臺(tái)，每個(gè)研究員或訪問學(xué)生只需要用虛擬機(jī)遠(yuǎn)程登錄就可以實(shí)現(xiàn)算法訓(xùn)練，甚至還包括數(shù)據(jù)管理、數(shù)據(jù)標(biāo)注和模型發(fā)布的整套系統(tǒng)。用戶標(biāo)注的數(shù)據(jù)可以直接上傳到系統(tǒng)中，經(jīng)過訓(xùn)練后就能直接發(fā)布模型了。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖四十五

其中核心的一部分叫 megvii brain，是一個(gè)深度學(xué)習(xí)的訓(xùn)練引擎，大家可能都聽說過 caffe、TensorFlow 或 MXNet，那么你可以把 megvii brain 理解為曠視（Face++）的「TensorFlow」。TensorFlow 已經(jīng)開源一年，而我們的 megvii brain 已經(jīng)兩年了。

為什么說曠視（Face++）是應(yīng)用深度學(xué)習(xí)比較早的公司呢？不只是在做應(yīng)用，其實(shí)底層的技術(shù)我們也在做，也開放應(yīng)用了。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖四十六

好處在于，很多定制化的東西我們可以自己來做。相對(duì) TF 這樣體量大的系統(tǒng)，可能用戶在上面做一些改動(dòng)就會(huì)產(chǎn)生很多問題。此外，引擎的占用內(nèi)存小，訓(xùn)練速度快，有很多東西是我們可以控制的。

前面我們提到了一些技術(shù)，接下來會(huì)說說產(chǎn)品能做些什么事情。

Face++產(chǎn)品及應(yīng)用

Face++有兩類產(chǎn)品，一類是人臉識(shí)別的 FaceID；另一類是智能攝像頭。

FaceID

FaceID 實(shí)際上就是為了解決一個(gè)問題：「如何驗(yàn)證『你是你』？」

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖四十七

比如線上銀行開戶、或是 Uber 司機(jī)的身份驗(yàn)證，目前也有很多方法，不過現(xiàn)在用得比較多的還是人臉識(shí)別的解決方案。

FaceID 的 App 身份驗(yàn)證方案的流程是這樣的，用戶拍一張照片，通過活體檢測(cè)部分比對(duì)身份證信息，通過客戶端的 SDK 與云上的計(jì)算實(shí)現(xiàn)比對(duì)任務(wù)。而 SmartID 則屬于 SaaS 服務(wù)，目前已經(jīng)應(yīng)用于非常多的領(lǐng)域，包括線上線下的銀行，還有以芝麻信用為代表的征信風(fēng)控業(yè)務(wù)都在用我們的服務(wù)。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖四十八

前一陣 3·15 展示了如何破解人臉識(shí)別技術(shù)，這里涉及到一個(gè)問題叫「活體攻擊問題」，其實(shí)反過來想，如果它已經(jīng)形成一個(gè)地下黑色產(chǎn)業(yè)鏈，說明已經(jīng)成為一個(gè)非常有價(jià)值的業(yè)務(wù)。

智能攝像頭

第二個(gè)方向則是智能攝像頭。

我們將算法嵌入攝像頭或計(jì)算盒子，主要方向是做家庭或公共安全的分析。大家可能了解過，中國(guó)的攝像頭數(shù)量超過世界上的一半，而超過一半的硬盤都被用于存儲(chǔ)視頻監(jiān)控內(nèi)容。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖四十九

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖五十

我們來看看交通規(guī)劃方面，曠視（Face++）的產(chǎn)品能做些什么。如果你能分析清楚視頻中的人流車流的 ID，那么這也具有價(jià)值。

比如我們做了一套門禁系統(tǒng)，員工上班時(shí)不需要打卡，只要走過這個(gè)玻璃門前，就能自動(dòng)識(shí)別人臉。目前這套系統(tǒng)也已經(jīng)獲得上百家公司的應(yīng)用。

此外，我們還可以根據(jù)這套系統(tǒng)做一些改變。比如中國(guó)每年有很多展會(huì)，在注冊(cè)服務(wù)上可能需要很多的人手跟進(jìn)，那么我們這款產(chǎn)品就能打造成一個(gè)基于人臉識(shí)別的自動(dòng)注冊(cè)系統(tǒng)。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖五十一

有了這些產(chǎn)品，勢(shì)必會(huì)產(chǎn)生非常大的數(shù)據(jù)，目前曠視（Face++）的開放平臺(tái) API 被調(diào)用的數(shù)據(jù)在 2016 年達(dá)到了 60 億次，很快會(huì)接近 100 億次。而我們的 Smart ID 也已經(jīng)服務(wù)超過上億人（不是上億人次）。

從感知智能到認(rèn)知智能

我們也希望實(shí)現(xiàn)「技術(shù)-產(chǎn)品-數(shù)據(jù)」的一個(gè)閉環(huán)，也是通過服務(wù)不同的行業(yè)實(shí)現(xiàn) AI+的方式。我們?cè)倩氐饺斯ぶ悄堋?/p>

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖五十二

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖五十三

左邊的綠色表示的是擬合映射的任務(wù)，用一個(gè)函數(shù) F（x）就把很多內(nèi)容解決了，提供大規(guī)模的標(biāo)注數(shù)據(jù)就可以實(shí)現(xiàn)。但右邊的任務(wù)就不是一步法就能做的，涉及很多的判斷，而且右邊的內(nèi)容可能無法提供一個(gè)大的訓(xùn)練環(huán)境。雖然目前有很多新技術(shù)，也有大量的投入，但還沒有很多進(jìn)展。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖五十四

計(jì)算機(jī)視覺雖然我劃在左邊，但實(shí)際上它也涉及右邊的認(rèn)知過程，比如系統(tǒng)能能夠判斷一個(gè)視頻里面的內(nèi)容，而這就涉及到很多 language 和常識(shí)的支持。

那么如何從感知智能向認(rèn)知智能轉(zhuǎn)變呢？

我從一本 2004 年的書中得到很多靈感，它的名字叫《On Intelligence》。作者 Jeff Hawkins 創(chuàng)建了一個(gè)研究院，研究如何做類似人腦智能的內(nèi)容，雖然研究院規(guī)模不大，成果也尚不足以證明什么，但書中提出的思想都非常早，包括如何利用存儲(chǔ)機(jī)做人工智能。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖五十五

現(xiàn)在訓(xùn)練神經(jīng)網(wǎng)絡(luò)是沒有內(nèi)存的，而人類擁有記憶，根據(jù)書本、知識(shí)將內(nèi)容傳承下來。那么像 Facebook、Google 這樣的公司都在做 Memory mechanism 的學(xué)習(xí)系統(tǒng)，要解決的核心內(nèi)容在于要存儲(chǔ)哪些內(nèi)容，讀取哪些內(nèi)容，又該做怎樣的聯(lián)想。比如人類記得一首歌、記得一句話，是按一定的順序記憶的，如果反過來，可能我們都回憶不起來。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖五十六

此外，很多知識(shí)是分層結(jié)構(gòu)的。因此這些內(nèi)容如何以一個(gè)合理的機(jī)制存在，是我一直非常關(guān)注的研究方向。

另一個(gè)我自己覺得非常有意思的內(nèi)容是無監(jiān)督的預(yù)測(cè)。它的基本思想是說，人在學(xué)習(xí)過程中是需要和物理世界發(fā)生交互的，而人類通過觀察現(xiàn)實(shí)世界就能學(xué)習(xí)到很多東西，不需要進(jìn)行額外的標(biāo)記。雖然我們不否認(rèn)家長(zhǎng)的重要性，但小孩學(xué)習(xí)的很多東西，也有很多不是父母教的。孩子在觀察世界、與世界互動(dòng)的過程中，包括基因傳承的一些內(nèi)容，就會(huì)自發(fā)地學(xué)習(xí)。

舉個(gè)例子，我們衡量智商會(huì)通過 IQ 測(cè)試，比如給出一列數(shù)字，讓你預(yù)測(cè)下一個(gè)數(shù)字是什么，或給一串文字，讓你判斷下一個(gè)文字。對(duì)將要發(fā)生事情的預(yù)測(cè)，是一個(gè)非常重要的監(jiān)督信號(hào)，能夠在整個(gè)學(xué)習(xí)過程中運(yùn)用。現(xiàn)在有很多的研究，通過一段視頻，判斷下一幀的內(nèi)容是什么；或通過一個(gè)圖片預(yù)測(cè)另一個(gè)視角的樣子。在這些過程中系統(tǒng)都能學(xué)到預(yù)測(cè)的特征。

在做深度學(xué)習(xí)時(shí)，我做過一篇論文叫《An associate-predict model for face recognition》，解決的是人臉識(shí)別中不同姿態(tài)的問題。當(dāng)時(shí)我嘗試創(chuàng)建了一個(gè)外部存儲(chǔ)，通過存儲(chǔ) memory 來做預(yù)測(cè)，效果非常好。但系統(tǒng)本身非常原始，而且是深度學(xué)習(xí)時(shí)代之前的一個(gè)研究?jī)?nèi)容。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖五十七

那么在無監(jiān)督預(yù)測(cè)中，比如真實(shí)世界里有一個(gè)南瓜，可能人類可以猜出南瓜后面大概長(zhǎng)什么樣，這就是「image completion」問題，也是十幾年前我們做的一個(gè)研究，即通過圖形學(xué)的方法猜出背后的內(nèi)容。那么今天在感知世界中，我們可以對(duì)被遮擋的東西做很多的感知，一個(gè)是我們的能力，另一個(gè)是教我們?nèi)绾螌?duì)真實(shí)世界進(jìn)行推理和預(yù)測(cè)，通過很多觀察的過程進(jìn)行學(xué)習(xí)。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖五十八

總而言之，人工智能很難，但我們從中也看到希望。這是朋友給我分享的一個(gè)圖片，希望我們能夠抵達(dá)一個(gè)至高點(diǎn)。在這個(gè)過程中，希望我們的技術(shù)商業(yè)數(shù)據(jù)能夠?qū)崿F(xiàn)循環(huán)，而對(duì)于每一個(gè)從業(yè)者來說，我們也需要有足夠的熱情、洞察力和耐心去做這件事。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）

圖五十九

我為什么相信這件事呢？今天世界上所有最聰明的人都在投入做人工智能。這張照片是我參加 CTC 大會(huì)時(shí)拍的，以前這是一個(gè)圖形學(xué)的會(huì)議，會(huì)研究游戲怎么做。但近年來我參加這個(gè)會(huì)議，5000 人的圖形學(xué)大會(huì)都在研究怎么做深度學(xué)習(xí)，更別說我們這些做機(jī)器學(xué)習(xí)的人了。

曠視科技孫劍：如何在大公司和創(chuàng)業(yè)公司做好計(jì)算機(jī)視覺的研究（二）