專訪閱面科技童志軍：FDDB、LFW雙奪冠的人臉識別技術(shù)

本文作者：趙青暉

2017-07-25 15:30

導(dǎo)語：專訪閱面科技算法總監(jiān)童志軍。

人工智能領(lǐng)域有很多比賽，近年來，隨著領(lǐng)域不斷升溫，在學(xué)術(shù)界之外，很多技術(shù)創(chuàng)業(yè)公司也開始參加各種大賽，來證明自己的技術(shù)實(shí)力。除了火熱的各種機(jī)器人比賽之外，在深度學(xué)習(xí)、機(jī)器視覺等領(lǐng)域的算法比賽也逐漸被人關(guān)注。「人臉識別」作為機(jī)器視覺中重要的應(yīng)用領(lǐng)域，肯定也少不了。說到人臉識別，首先，先介紹兩個(gè)老牌的比賽：

FDDB

FDDB的全稱為Face Detection Data Set and Benchmark，是由馬薩諸塞大學(xué)計(jì)算機(jī)系維護(hù)的一套公開數(shù)據(jù)庫，為來自全世界的研究者提供一個(gè)標(biāo)準(zhǔn)的人臉檢測評測平臺。它是全世界最具權(quán)威的人臉檢測評測平臺之一，包含2845張圖片，共有5171個(gè)人臉作為測試集。

測試集范圍包括：不同姿勢、不同分辨率、旋轉(zhuǎn)和遮擋等圖片，同時(shí)包括灰度圖和彩色圖，標(biāo)準(zhǔn)的人臉標(biāo)注區(qū)域?yàn)闄E圓形。值得注意的是，目前FDDB所公布的評測集也代表了目前人臉檢測的世界最高水平。

LFW

LFW全名Labeled Faces in the Wild，是由馬薩諸塞大學(xué)于2007年建立，用于評測非約束條件下的人臉識別算法性能，是人臉識別領(lǐng)域使用最廣泛的評測集合。該數(shù)據(jù)集由13000多張全世界知名人士互聯(lián)網(wǎng)自然場景不同朝向、表情和光照環(huán)境人臉圖片組成，共有5000多人，其中有1680人有2張或2張以上人臉圖片。每張人臉圖片都有其唯一的姓名ID和序號加以區(qū)分。

LFW測試正確率，代表了人臉識別算法在處理不同種族、光線、角度、遮擋等情況下識別人臉的綜合能力。

這兩個(gè)比賽使得人臉檢測和人臉識別真正從學(xué)術(shù)界走向工業(yè)界，達(dá)到實(shí)用的精度。目前為止，這兩個(gè)比賽已經(jīng)吸引了國內(nèi)外很多技術(shù)團(tuán)隊(duì)參加，其中包括Google、Facebook、微軟亞洲研究院等頂級的工業(yè)界與學(xué)術(shù)界團(tuán)隊(duì)，以及百度、騰訊、商湯、Face++等國內(nèi)團(tuán)隊(duì)。

5月20日，根據(jù)人臉檢測評測平臺FDDB公布的數(shù)據(jù)排名顯示，來自中國的人工智能公司閱面科技（ReadSense）在眾多的優(yōu)秀競爭者中拔得頭籌，當(dāng)時(shí)雷鋒網(wǎng)也對此事進(jìn)行了報(bào)道。

6月末，LFW公布了最新的測試結(jié)果，閱面科技的人臉識別技術(shù)以99.82%的識別精度獲得第一名。

由此，這家創(chuàng)業(yè)公司成為了史上第一個(gè)在FDDB和LFW同時(shí)奪冠的團(tuán)隊(duì)。為此，雷鋒網(wǎng)采訪了閱面科技算法總監(jiān)童志軍，從技術(shù)的角度了解了一下關(guān)于閱面科技在這兩次比賽中所獲突破的技術(shù)細(xì)節(jié)。

FDDB小尺寸的突破

根據(jù)FDDB官方發(fā)布的人臉檢測技術(shù)報(bào)告顯示，指標(biāo)曲線包含離散和連續(xù)兩個(gè)，而這兩個(gè)指標(biāo)閱面科技都獲得了第一，關(guān)于這兩個(gè)指標(biāo)的實(shí)際意義，童志軍介紹說：

人臉檢測離散指標(biāo)更注重評測算法的檢測率，只要算法預(yù)測檢測框和官方提供的GroudTruth的IOU(intersection-over-union)大于0.5就可以。
連續(xù)指標(biāo)除了評測算法檢測率，還對框的擬合程序作了細(xì)化的比較，屬于細(xì)粒度的評測。
實(shí)際使用中更關(guān)注離散指標(biāo)，只要能檢測到人臉就達(dá)到實(shí)用要求，這主要是因?yàn)槿四槞z測后續(xù)都會加上人臉關(guān)鍵點(diǎn)定位來做細(xì)粒度的對齊。

專訪閱面科技童志軍：FDDB、LFW雙奪冠的人臉識別技術(shù)

△FDDB官方發(fā)布的人臉檢測技術(shù)曲線

而此前據(jù)雷鋒網(wǎng)了解：閱面科技在FDDB上提交的全新檢測算法突破了小尺寸、模糊和動態(tài)人臉檢測的極限。

關(guān)于這個(gè)「小尺寸」，童志軍向雷鋒網(wǎng)解釋說，小尺寸主要是分辨率在10*10以下的模糊人臉檢測，而這類的檢測在安防應(yīng)用領(lǐng)域很常見。

為了解決小尺寸、模糊和動態(tài)人臉檢測的問題，閱面科技團(tuán)隊(duì)自己采集了特定場景的數(shù)據(jù)，和跟客戶合作累積的數(shù)據(jù)相結(jié)合，形成了基于實(shí)際場景的百萬級的人臉數(shù)據(jù)，并且使用這些數(shù)據(jù)訓(xùn)練基礎(chǔ)模型，在網(wǎng)絡(luò)模型設(shè)計(jì)中引入高低層特征聯(lián)合、多尺度融合、負(fù)樣本挖掘等策略，重點(diǎn)解決較為棘手的小尺寸、模糊和動態(tài)人臉檢測難題，從而提高了小尺寸模糊人臉的檢測率。

LFW高精度識別和難點(diǎn)

在FDDB之外，閱面科技在LFW數(shù)據(jù)集以達(dá)到99.82%±0.0007人臉驗(yàn)證精度奪冠，據(jù)雷鋒網(wǎng)了解，LFW人臉識別(1:1驗(yàn)證)實(shí)際評測時(shí)包含3000個(gè)正pair和3000個(gè)負(fù)pair，把6000個(gè)pair分為10組，而閱面科技的的驗(yàn)證結(jié)果正式采用10次交叉驗(yàn)證的方式得到平均識別率為99.82%，標(biāo)準(zhǔn)差為±0.0007。

專訪閱面科技童志軍：FDDB、LFW雙奪冠的人臉識別技術(shù)

△LFW測試結(jié)果

而之所以能夠得到如此高的精度，童志軍說，在閱面提交的人臉識別算法是以改進(jìn)版的殘差網(wǎng)絡(luò)為基礎(chǔ)，訓(xùn)練數(shù)據(jù)來自內(nèi)部收集的千萬級的人臉數(shù)據(jù)，訓(xùn)練過程中同時(shí)加入識別和驗(yàn)證兩種監(jiān)督信號保證同一個(gè)人的類內(nèi)距離更小，不同人的類間距離更大。由于人臉五官具有明確的語義信息，閱面采用的多模型融合版本最終得到了98.82%的精度。

聽起來好像輕描淡寫地就把識別率提升了，其實(shí)在實(shí)際操作過程中還是碰到了一些難題，童志軍向雷鋒網(wǎng)舉了個(gè)例子：

我們兩個(gè)比賽都是使用基于深度學(xué)習(xí)的算法，通過“增加更多數(shù)據(jù)、加深網(wǎng)絡(luò)規(guī)模”得到一個(gè)不錯(cuò)的「Baseline」之后，發(fā)現(xiàn)進(jìn)一步增加數(shù)據(jù)和網(wǎng)絡(luò)層數(shù)并不能帶來提升，算法性能到了一個(gè)瓶頸。
后來我們仔細(xì)分析了一些測試的「bad case」，并對網(wǎng)絡(luò)做了可視化，有針對性的調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)，最終以50層的網(wǎng)絡(luò)規(guī)模達(dá)到別人300層網(wǎng)絡(luò)的精度。

雖然精度已經(jīng)達(dá)到了上述高度，但在實(shí)際應(yīng)用中還有一些難點(diǎn)需要攻克，比如實(shí)際應(yīng)用復(fù)雜光照（過曝、暗光）下的人臉識別、跨年齡段的人臉識別都是急需攻克的難點(diǎn)。童志軍告訴雷鋒網(wǎng)，閱面的團(tuán)隊(duì)目前主要解決了大部分復(fù)雜光照下人臉識別精度低的問題，通過3D人臉模型和生成對抗網(wǎng)絡(luò)的方式合成特定光照的人臉，增強(qiáng)模型的魯棒性，其他也都在陸續(xù)努力解決中。

人臉識別深度學(xué)習(xí)優(yōu)勢

人臉識別曾經(jīng)在業(yè)界有一個(gè)比較普遍的說法，認(rèn)為深度神經(jīng)網(wǎng)絡(luò)“層數(shù)越深，精度越高”，但是這種說法似乎在人臉識別這個(gè)領(lǐng)域并不是絕對的，對此，童志軍認(rèn)為：

在通用物體檢測識別中，往往層數(shù)越深，精度越高，但由于人臉相比于通用的物體具有很強(qiáng)的先驗(yàn)知識，比如說人臉的五官分布普遍一致，更好地挖掘這些有效信息，往往能收到事半功倍的效果。
可以說在人臉檢測和識別上，并不一定需要很深的層數(shù)也能達(dá)到很高的精度。

據(jù)童志軍介紹，閱面相比于其他團(tuán)隊(duì)在深度學(xué)習(xí)算法上的優(yōu)勢在于，閱面更偏向于嵌入式的深度學(xué)習(xí)算法研發(fā)，這其中包括半監(jiān)督的數(shù)據(jù)清洗和挖掘引擎，多機(jī)多卡的云端訓(xùn)練引擎，移動端深度學(xué)習(xí)加速引擎等等，使得深度學(xué)習(xí)算法在移動端也能夠?qū)崟r(shí)動態(tài)、低功耗、低成本地跑起來。

關(guān)于技術(shù)落地

閱面科技成立于2015年，公司的核心研發(fā)團(tuán)隊(duì)由來自阿里、百度、以及卡內(nèi)基梅隆大學(xué)的頂尖人工智能研發(fā)人員組成，專注深度學(xué)習(xí)和嵌入式方案，致力于解決視覺識別問題。而在這兩個(gè)比賽中獲得的成績，也是對他們本身技術(shù)的一種肯定，隨著自研的人臉識別技術(shù)得到越來越多來自國際的權(quán)威認(rèn)證，閱面科技也逐步將技術(shù)落地。

閱面科技的核心技術(shù)目前已經(jīng)廣泛應(yīng)用于消費(fèi)電子、智能安全、智能商業(yè)等領(lǐng)域。

而在技術(shù)落地的過程中，確實(shí)還會存在著一些難題，比如，在實(shí)際場景中復(fù)雜背景、不可逆物體形變等影響給算法精度帶來的挑戰(zhàn)等等，對此童志軍說，他們的團(tuán)隊(duì)也正在努力解決這些「落地的難題」：

我們內(nèi)部會有一個(gè)海量數(shù)據(jù)訓(xùn)練的基礎(chǔ)模型，會針對不同場景做微調(diào)；另外我們還會建立數(shù)據(jù)回流機(jī)制，不斷強(qiáng)化基礎(chǔ)模型的泛化性。

閱面科技在人臉檢測和識別領(lǐng)域還會繼續(xù)深耕，假以時(shí)日，相信能取得更大的成果。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

6人收藏

相關(guān)文章

趙青暉

編輯

關(guān)注互聯(lián)網(wǎng)內(nèi)容創(chuàng)作的一切。微信號：rockpen（*注明公司職位，否則不通過），請多指教。另有一公眾號：artbyte，專注扯犢子。

發(fā)私信

當(dāng)月熱門文章