2
本文作者: 李尊 | 2016-10-26 10:17 | 專題:2016中國計(jì)算機(jī)大會(huì)(CNCC 2016) |
雷鋒網(wǎng)按:本文根據(jù)山世光在 CNCC 2016 可視媒體計(jì)算論壇上所做的報(bào)告《深度化的人臉檢測與識(shí)別技術(shù):進(jìn)展與問題》編輯整理而來,在未改變原意的基礎(chǔ)上略有刪減。
山世光,中科院計(jì)算所研究員,中科院智能信息處理重點(diǎn)實(shí)驗(yàn)室常務(wù)副主任。主要從事計(jì)算機(jī)視覺、模式識(shí)別、機(jī)器學(xué)習(xí)等相關(guān)研究工作。迄今已發(fā)表CCF A類論文50余篇,全部論文被Google Scholar引用9000余次。曾應(yīng)邀擔(dān)任過ICCV,ACCV,ICPR,F(xiàn)G等多個(gè)國際會(huì)議的領(lǐng)域主席(Area Chair)?,F(xiàn)任IEEE Trans. on Image Processing,Neurocomputing和Pattern Recogintion Letters等國際學(xué)術(shù)刊物的編委(AE)。研究成果曾獲2005年國家科技進(jìn)步二等獎(jiǎng)和2015年度國家自然科學(xué)二等獎(jiǎng)。2008年度中國科學(xué)院盧嘉錫青年人才獎(jiǎng)獲得者,2009年度北京市科技新星獲得者,2009年獲首屆Scopus尋找未來科學(xué)之星銀獎(jiǎng)(信息領(lǐng)域共2名),2012年獲得基金委“優(yōu)青”支持。
今天我所做的報(bào)告的題目是《深度化的人臉檢測與識(shí)別技術(shù)》,在過去三四年里,人臉識(shí)別領(lǐng)域非??焖俚貜姆巧疃葘W(xué)習(xí)方法切換到了深度學(xué)習(xí)這樣一個(gè)新的范式里面。
本次報(bào)告主要介紹最近幾年在人臉識(shí)別領(lǐng)域幾個(gè)關(guān)鍵流程上面,深度學(xué)習(xí)的應(yīng)用情況。
主要給大家介紹這幾部分內(nèi)容:
人臉識(shí)別總體情況
人臉檢測
面部特征點(diǎn)定位
SeetaFace開源引擎
全自動(dòng)人臉識(shí)別系統(tǒng)流程
本質(zhì)——對比兩個(gè)照片是否是同一個(gè)人。
舉例來說對于上圖中兩張照片,人臉識(shí)別需要去做的是計(jì)算其相似度是不是足夠高。這個(gè)過程可以分為以下幾個(gè)步驟:
第一步是要找到臉在哪里
第二步是找到五官的位置
第三步是把關(guān)鍵人臉區(qū)域提取出來
第四步是用特征提取器F把圖像變成特征向量(y=F(x))
第五步對比向量y1、y2的相似度是否足夠高,據(jù)此來進(jìn)行判斷
在這里面最核心的其實(shí)有三個(gè)步驟,第一個(gè)是找到臉在哪里,第二個(gè)是找到五官在哪里,第三個(gè)是f(x)函數(shù)的設(shè)置,這也是人臉識(shí)別系統(tǒng)中最本質(zhì)的三個(gè)內(nèi)容。
人臉識(shí)別近期發(fā)展的最大特點(diǎn)
人臉識(shí)別能在過去的三四年的時(shí)間里能有一個(gè)快速的發(fā)展是得益于深度學(xué)習(xí)。
在這期間有一個(gè)非常重要的變化是人臉識(shí)別變得和狗臉識(shí)別、貓臉識(shí)別沒什么太大區(qū)別了。也就是說在技術(shù)上,不用再把人臉識(shí)別特別來看待了。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)
在深度學(xué)習(xí)之后,我們發(fā)現(xiàn)深度學(xué)習(xí)對于人臉識(shí)別這項(xiàng)幫助非常大。為什么?其實(shí)是實(shí)現(xiàn)了深度化。
在計(jì)算機(jī)視覺領(lǐng)域,深度學(xué)習(xí)中應(yīng)用得最好、最成功的就是卷積神經(jīng)網(wǎng)絡(luò)(CNN)。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)變遷
事實(shí)上卷積神經(jīng)網(wǎng)絡(luò)不是2016年發(fā)明的,也不是2012年發(fā)明的,它大約是在20世紀(jì)80年代出現(xiàn)的,到1998年這期間出現(xiàn)了一些卷積神經(jīng)網(wǎng)絡(luò)的雛形??梢詮纳蠄D中看到,1998年出現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)和當(dāng)下的在本質(zhì)上其實(shí)已經(jīng)沒什么區(qū)別了。
卷積神經(jīng)網(wǎng)絡(luò)實(shí)質(zhì)上是對輸入進(jìn)行加權(quán)求和之后,去做一個(gè)非線性變化的過程。輸入圖像通過濾波器組進(jìn)行非線性卷積,卷積后在每一層產(chǎn)生特征映射圖,然后特征映射圖中的值再進(jìn)行加權(quán)求和并進(jìn)行非線性變換。在此過程中這些像素在池化層被池化,最終得到輸出值。
具體到人臉檢測的問題,在深度學(xué)習(xí)技術(shù)出現(xiàn)之前,幾乎所有人臉檢測都是采用滑動(dòng)窗口式的方法。
也就是說,我們會(huì)首先設(shè)計(jì)一個(gè)分類器。拿上圖中圖片舉例來說,我們會(huì)設(shè)計(jì)一個(gè)40x40的窗口,然后去檢測那個(gè)部分是不是人臉。此外我們還需要對圖片進(jìn)行縮放再進(jìn)行檢測,這個(gè)方式其實(shí)是2000-2012年以來主流的方法。
物體檢測:內(nèi)涵與總體思路
不管是人臉檢測還是物體檢測,都需要進(jìn)行考慮的是這兩個(gè)問題:
有沒有?
在哪里?
2014年以來的變遷
“有沒有”部分
從人臉特征——分類器學(xué)習(xí)“兩步法”轉(zhuǎn)變?yōu)樘卣骱头诸惼鱁nd—to—End學(xué)習(xí)
從二類分類轉(zhuǎn)變?yōu)槎囝惙诸?/p>
“在哪里&有多大?”部分
從Check所有可能位置和大小轉(zhuǎn)變?yōu)橹籆heck可能位置和大小或者回歸位置和大?。ǜ鼫?zhǔn)確)
基于深度學(xué)習(xí)的物體檢測
在過去的幾年時(shí)間里出現(xiàn)了一系列的方法,包括
Region CNN系列
R-CNN——SPP R-CNN——Fast R-CNN——Faster R-CNN
回歸位置
YOLO
傳統(tǒng)方法與深度方法結(jié)合
FacenessNET
Cascade CNN(coarse-to-fine)
R-CNN
關(guān)鍵點(diǎn):
Selective Search產(chǎn)生約2000個(gè)候選窗口
每個(gè)候選窗縮放到227*227(用CNN提取特征)
SVM分類
需要2000多次CNN過程,速度很慢。
SPP-Net
Fast R-CNN
Faster R-CNN
YOLO(You Only Look Once)
這個(gè)方法更加的簡單粗暴一些
將輸入圖像劃分為SxS grid
對grid cell預(yù)測
網(wǎng)絡(luò)全連接層——張量
用NMS去除冗余
FacenessNET
Cascade CNN(coarse-to-fine)
物體(人臉)檢測:總結(jié)與問題
小結(jié):
深度學(xué)習(xí)方法帶了性能上的大提升
Bounding Box Regression(BBR)興起
樣本組織方式的變革
問題:
高精度、全姿態(tài)時(shí)的速度問題
小尺度、大遮擋、復(fù)雜光照情況下可能漏檢
深度級聯(lián)回歸
基于多級DCNN實(shí)現(xiàn)f函數(shù)(CVPR2013)
基于多級Auto-encoder實(shí)現(xiàn)f函數(shù)(ECCV2014)
對遮擋魯棒性地特征點(diǎn)定位方法(CVPR2016)
在深度學(xué)習(xí)出現(xiàn)之前,和傳統(tǒng)方法一致。(兩步法)
人工(卷積)特征
特征變換
人臉識(shí)別測試集和性能的變遷
特別要提到的是學(xué)術(shù)界的里程碑(數(shù)據(jù)庫):
ORL——FERET——FRGC v2.0——LFW
LFW人臉識(shí)別評測
LFW數(shù)據(jù)庫來源于因特網(wǎng)上的數(shù)據(jù),對于名人明星的圖像進(jìn)行識(shí)別。
過去三年錯(cuò)誤率從5%下降到0.4%。
在深度學(xué)習(xí)出現(xiàn)之后,直接從圖像開始學(xué)習(xí)特征。
過去2年的新進(jìn)展
最開始將深度學(xué)習(xí)應(yīng)用到人臉特征提取的是Facebook的DeepFace,使用一個(gè)8層的神經(jīng)網(wǎng)絡(luò),對4000人的440萬圖像進(jìn)行訓(xùn)練學(xué)習(xí)。
Google的FaceNet則是使用800萬人的2億張圖像進(jìn)行訓(xùn)練學(xué)習(xí),這個(gè)數(shù)據(jù)量是及其龐大的。
我們有理由相信這樣一個(gè)網(wǎng)絡(luò)在如此龐大數(shù)據(jù)量訓(xùn)練之后,它的人臉識(shí)別能力是比普通人要好的。
待解決問題
人臉識(shí)別應(yīng)用現(xiàn)狀
1:N
配合照片檢索應(yīng)用,目前基本成熟
1:1驗(yàn)證
配合用戶,可以應(yīng)用
1:N+1
萬級以上非配合用戶,任重道遠(yuǎn)
SeetaFace Detector
SeetaFace Alignment
SeetaFace Identification
人臉檢測與識(shí)別不再具有特殊性
深度模型(&大數(shù)據(jù)&高性能計(jì)算)極大推進(jìn)了人臉識(shí)別能力,在一些(用戶配合的)任務(wù)上能超過人眼
萬人規(guī)模的黑名單視頻監(jiān)控場景尚不成熟
SeetaFace為大家提供了一個(gè)不錯(cuò)的baseline
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章