0
人工智能領(lǐng)域有很多比賽,近年來,隨著領(lǐng)域不斷升溫,在學(xué)術(shù)界之外,很多技術(shù)創(chuàng)業(yè)公司也開始參加各種大賽,來證明自己的技術(shù)實(shí)力。除了火熱的各種機(jī)器人比賽之外,在深度學(xué)習(xí)、機(jī)器視覺等領(lǐng)域的算法比賽也逐漸被人關(guān)注?!溉四樧R(shí)別」作為機(jī)器視覺中重要的應(yīng)用領(lǐng)域,肯定也少不了。說到人臉識(shí)別,首先,先介紹兩個(gè)老牌的比賽:
FDDB
FDDB的全稱為Face Detection Data Set and Benchmark,是由馬薩諸塞大學(xué)計(jì)算機(jī)系維護(hù)的一套公開數(shù)據(jù)庫,為來自全世界的研究者提供一個(gè)標(biāo)準(zhǔn)的人臉檢測(cè)評(píng)測(cè)平臺(tái)。它是全世界最具權(quán)威的人臉檢測(cè)評(píng)測(cè)平臺(tái)之一,包含2845張圖片,共有5171個(gè)人臉作為測(cè)試集。
測(cè)試集范圍包括:不同姿勢(shì)、不同分辨率、旋轉(zhuǎn)和遮擋等圖片,同時(shí)包括灰度圖和彩色圖,標(biāo)準(zhǔn)的人臉標(biāo)注區(qū)域?yàn)闄E圓形。值得注意的是,目前FDDB所公布的評(píng)測(cè)集也代表了目前人臉檢測(cè)的世界最高水平。
LFW
LFW全名Labeled Faces in the Wild,是由馬薩諸塞大學(xué)于2007年建立,用于評(píng)測(cè)非約束條件下的人臉識(shí)別算法性能,是人臉識(shí)別領(lǐng)域使用最廣泛的評(píng)測(cè)集合。該數(shù)據(jù)集由13000多張全世界知名人士互聯(lián)網(wǎng)自然場(chǎng)景不同朝向、表情和光照環(huán)境人臉圖片組成,共有5000多人,其中有1680人有2張或2張以上人臉圖片。每張人臉圖片都有其唯一的姓名ID和序號(hào)加以區(qū)分。
LFW測(cè)試正確率,代表了人臉識(shí)別算法在處理不同種族、光線、角度、遮擋等情況下識(shí)別人臉的綜合能力。
這兩個(gè)比賽使得人臉檢測(cè)和人臉識(shí)別真正從學(xué)術(shù)界走向工業(yè)界,達(dá)到實(shí)用的精度。目前為止,這兩個(gè)比賽已經(jīng)吸引了國內(nèi)外很多技術(shù)團(tuán)隊(duì)參加,其中包括Google、Facebook、微軟亞洲研究院等頂級(jí)的工業(yè)界與學(xué)術(shù)界團(tuán)隊(duì),以及百度、騰訊、商湯、Face++等國內(nèi)團(tuán)隊(duì)。
5月20日,根據(jù)人臉檢測(cè)評(píng)測(cè)平臺(tái)FDDB公布的數(shù)據(jù)排名顯示,來自中國的人工智能公司閱面科技(ReadSense)在眾多的優(yōu)秀競(jìng)爭(zhēng)者中拔得頭籌,當(dāng)時(shí)雷鋒網(wǎng)也對(duì)此事進(jìn)行了報(bào)道。
6月末,LFW公布了最新的測(cè)試結(jié)果,閱面科技的人臉識(shí)別技術(shù)以99.82%的識(shí)別精度獲得第一名。
由此,這家創(chuàng)業(yè)公司成為了史上第一個(gè)在FDDB和LFW同時(shí)奪冠的團(tuán)隊(duì)。為此,雷鋒網(wǎng)采訪了閱面科技算法總監(jiān)童志軍,從技術(shù)的角度了解了一下關(guān)于閱面科技在這兩次比賽中所獲突破的技術(shù)細(xì)節(jié)。
根據(jù)FDDB官方發(fā)布的人臉檢測(cè)技術(shù)報(bào)告顯示,指標(biāo)曲線包含離散和連續(xù)兩個(gè),而這兩個(gè)指標(biāo)閱面科技都獲得了第一,關(guān)于這兩個(gè)指標(biāo)的實(shí)際意義,童志軍介紹說:
人臉檢測(cè)離散指標(biāo)更注重評(píng)測(cè)算法的檢測(cè)率,只要算法預(yù)測(cè)檢測(cè)框和官方提供的GroudTruth的IOU(intersection-over-union)大于0.5就可以。
連續(xù)指標(biāo)除了評(píng)測(cè)算法檢測(cè)率,還對(duì)框的擬合程序作了細(xì)化的比較,屬于細(xì)粒度的評(píng)測(cè)。
實(shí)際使用中更關(guān)注離散指標(biāo),只要能檢測(cè)到人臉就達(dá)到實(shí)用要求,這主要是因?yàn)槿四槞z測(cè)后續(xù)都會(huì)加上人臉關(guān)鍵點(diǎn)定位來做細(xì)粒度的對(duì)齊。
△FDDB官方發(fā)布的人臉檢測(cè)技術(shù)曲線
而此前據(jù)雷鋒網(wǎng)了解:閱面科技在FDDB上提交的全新檢測(cè)算法突破了小尺寸、模糊和動(dòng)態(tài)人臉檢測(cè)的極限。
關(guān)于這個(gè)「小尺寸」,童志軍向雷鋒網(wǎng)解釋說,小尺寸主要是分辨率在10*10以下的模糊人臉檢測(cè),而這類的檢測(cè)在安防應(yīng)用領(lǐng)域很常見。
為了解決小尺寸、模糊和動(dòng)態(tài)人臉檢測(cè)的問題,閱面科技團(tuán)隊(duì)自己采集了特定場(chǎng)景的數(shù)據(jù),和跟客戶合作累積的數(shù)據(jù)相結(jié)合,形成了基于實(shí)際場(chǎng)景的百萬級(jí)的人臉數(shù)據(jù),并且使用這些數(shù)據(jù)訓(xùn)練基礎(chǔ)模型,在網(wǎng)絡(luò)模型設(shè)計(jì)中引入高低層特征聯(lián)合、多尺度融合、負(fù)樣本挖掘等策略,重點(diǎn)解決較為棘手的小尺寸、模糊和動(dòng)態(tài)人臉檢測(cè)難題,從而提高了小尺寸模糊人臉的檢測(cè)率。
在FDDB之外,閱面科技在LFW數(shù)據(jù)集以達(dá)到99.82%±0.0007人臉驗(yàn)證精度奪冠,據(jù)雷鋒網(wǎng)了解,LFW人臉識(shí)別(1:1驗(yàn)證)實(shí)際評(píng)測(cè)時(shí)包含3000個(gè)正pair和3000個(gè)負(fù)pair,把6000個(gè)pair分為10組,而閱面科技的的驗(yàn)證結(jié)果正式采用10次交叉驗(yàn)證的方式得到平均識(shí)別率為99.82%,標(biāo)準(zhǔn)差為±0.0007。
△LFW測(cè)試結(jié)果
而之所以能夠得到如此高的精度,童志軍說,在閱面提交的人臉識(shí)別算法是以改進(jìn)版的殘差網(wǎng)絡(luò)為基礎(chǔ),訓(xùn)練數(shù)據(jù)來自內(nèi)部收集的千萬級(jí)的人臉數(shù)據(jù),訓(xùn)練過程中同時(shí)加入識(shí)別和驗(yàn)證兩種監(jiān)督信號(hào)保證同一個(gè)人的類內(nèi)距離更小,不同人的類間距離更大。由于人臉五官具有明確的語義信息,閱面采用的多模型融合版本最終得到了98.82%的精度。
聽起來好像輕描淡寫地就把識(shí)別率提升了,其實(shí)在實(shí)際操作過程中還是碰到了一些難題,童志軍向雷鋒網(wǎng)舉了個(gè)例子:
我們兩個(gè)比賽都是使用基于深度學(xué)習(xí)的算法,通過“增加更多數(shù)據(jù)、加深網(wǎng)絡(luò)規(guī)?!钡玫揭粋€(gè)不錯(cuò)的「Baseline」之后,發(fā)現(xiàn)進(jìn)一步增加數(shù)據(jù)和網(wǎng)絡(luò)層數(shù)并不能帶來提升,算法性能到了一個(gè)瓶頸。
后來我們仔細(xì)分析了一些測(cè)試的「bad case」,并對(duì)網(wǎng)絡(luò)做了可視化,有針對(duì)性的調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),最終以50層的網(wǎng)絡(luò)規(guī)模達(dá)到別人300層網(wǎng)絡(luò)的精度。
雖然精度已經(jīng)達(dá)到了上述高度,但在實(shí)際應(yīng)用中還有一些難點(diǎn)需要攻克,比如實(shí)際應(yīng)用復(fù)雜光照(過曝、暗光)下的人臉識(shí)別、跨年齡段的人臉識(shí)別都是急需攻克的難點(diǎn)。童志軍告訴雷鋒網(wǎng),閱面的團(tuán)隊(duì)目前主要解決了大部分復(fù)雜光照下人臉識(shí)別精度低的問題,通過3D人臉模型和生成對(duì)抗網(wǎng)絡(luò)的方式合成特定光照的人臉,增強(qiáng)模型的魯棒性,其他也都在陸續(xù)努力解決中。
人臉識(shí)別曾經(jīng)在業(yè)界有一個(gè)比較普遍的說法,認(rèn)為深度神經(jīng)網(wǎng)絡(luò)“層數(shù)越深,精度越高”,但是這種說法似乎在人臉識(shí)別這個(gè)領(lǐng)域并不是絕對(duì)的,對(duì)此,童志軍認(rèn)為:
在通用物體檢測(cè)識(shí)別中,往往層數(shù)越深,精度越高,但由于人臉相比于通用的物體具有很強(qiáng)的先驗(yàn)知識(shí),比如說人臉的五官分布普遍一致,更好地挖掘這些有效信息,往往能收到事半功倍的效果。
可以說在人臉檢測(cè)和識(shí)別上,并不一定需要很深的層數(shù)也能達(dá)到很高的精度。
據(jù)童志軍介紹,閱面相比于其他團(tuán)隊(duì)在深度學(xué)習(xí)算法上的優(yōu)勢(shì)在于,閱面更偏向于嵌入式的深度學(xué)習(xí)算法研發(fā),這其中包括半監(jiān)督的數(shù)據(jù)清洗和挖掘引擎,多機(jī)多卡的云端訓(xùn)練引擎,移動(dòng)端深度學(xué)習(xí)加速引擎等等,使得深度學(xué)習(xí)算法在移動(dòng)端也能夠?qū)崟r(shí)動(dòng)態(tài)、低功耗、低成本地跑起來。
閱面科技成立于2015年,公司的核心研發(fā)團(tuán)隊(duì)由來自阿里、百度、以及卡內(nèi)基梅隆大學(xué)的頂尖人工智能研發(fā)人員組成,專注深度學(xué)習(xí)和嵌入式方案,致力于解決視覺識(shí)別問題。而在這兩個(gè)比賽中獲得的成績(jī),也是對(duì)他們本身技術(shù)的一種肯定,隨著自研的人臉識(shí)別技術(shù)得到越來越多來自國際的權(quán)威認(rèn)證,閱面科技也逐步將技術(shù)落地。
閱面科技的核心技術(shù)目前已經(jīng)廣泛應(yīng)用于消費(fèi)電子、智能安全、智能商業(yè)等領(lǐng)域。
而在技術(shù)落地的過程中,確實(shí)還會(huì)存在著一些難題,比如,在實(shí)際場(chǎng)景中復(fù)雜背景、不可逆物體形變等影響給算法精度帶來的挑戰(zhàn)等等,對(duì)此童志軍說,他們的團(tuán)隊(duì)也正在努力解決這些「落地的難題」:
我們內(nèi)部會(huì)有一個(gè)海量數(shù)據(jù)訓(xùn)練的基礎(chǔ)模型,會(huì)針對(duì)不同場(chǎng)景做微調(diào);另外我們還會(huì)建立數(shù)據(jù)回流機(jī)制,不斷強(qiáng)化基礎(chǔ)模型的泛化性。
閱面科技在人臉檢測(cè)和識(shí)別領(lǐng)域還會(huì)繼續(xù)深耕,假以時(shí)日,相信能取得更大的成果。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。