解密：面部特征點(diǎn)檢測(cè)的關(guān)鍵技術(shù)

本文作者：深度學(xué)習(xí)大講堂

2016-08-15 17:26

導(dǎo)語：本文主要介紹面部特征點(diǎn)定位的3個(gè)重要模型。

雷鋒網(wǎng)按：本文作者張杰，中科院計(jì)算技術(shù)研究所VIPL課題組博士生，專注于深度學(xué)習(xí)技術(shù)及其在人臉識(shí)別領(lǐng)域的應(yīng)用。相關(guān)研究成果發(fā)表在計(jì)算機(jī)視覺國際頂級(jí)學(xué)術(shù)會(huì)議ICCV, CVPR和ECCV，并擔(dān)任國際頂級(jí)期刊TIP和TNNLS審稿人。

面部特征點(diǎn)定位任務(wù)即根據(jù)輸入的人臉圖像，自動(dòng)定位出面部關(guān)鍵特征點(diǎn)，如眼睛、鼻尖、嘴角點(diǎn)、眉毛以及人臉各部件輪廓點(diǎn)等，如下圖所示。

解密：面部特征點(diǎn)檢測(cè)的關(guān)鍵技術(shù)

這項(xiàng)技術(shù)的應(yīng)用很廣泛，比如自動(dòng)人臉識(shí)別，表情識(shí)別以及人臉動(dòng)畫自動(dòng)合成等。由于不同的姿態(tài)、表情、光照以及遮擋等因素的影響，準(zhǔn)確地定位出各個(gè)關(guān)鍵特征點(diǎn)看似很困難。我們簡(jiǎn)單地分析一下這個(gè)問題，不難發(fā)現(xiàn)這個(gè)任務(wù)其實(shí)可以拆分出三個(gè)子問題：

如何對(duì)人臉表觀圖像（輸入）建模

如何對(duì)人臉形狀（輸出）建模
如何建立人臉表觀圖像（模型）與人臉形狀（模型）的關(guān)聯(lián)

以往的研究工作也離不開這三個(gè)方面。人臉形狀建模典型的方法有可變形模板（Deformable Template）、點(diǎn)分布模型（主動(dòng)形狀模型Active Shape Model）、圖模型等。

人臉表觀建模又可分為全局表觀建模和局部表觀建模。全局表觀建模簡(jiǎn)單的說就是考慮如何建模整張人臉的表觀信息，典型的方法有主動(dòng)表觀模型Active Appearance Model（產(chǎn)生式模型）和Boosted Appearance Model（判別式模型）。對(duì)應(yīng)的局部表觀建模則是對(duì)局部區(qū)域的表觀信息建模，包括顏色模型、投影模型、側(cè)剖線模型等。

近來，級(jí)聯(lián)形狀回歸模型在特征點(diǎn)定位任務(wù)上取得了重大突破，該方法使用回歸模型，直接學(xué)習(xí)從人臉表觀到人臉形狀（或者人臉形狀模型的參數(shù)）的映射函數(shù)，進(jìn)而建立從表觀到形狀的對(duì)應(yīng)關(guān)系。此類方法不需要復(fù)雜的人臉形狀和表觀建模，簡(jiǎn)單高效，在可控場(chǎng)景（實(shí)驗(yàn)室條件下采集的人臉）和非可控場(chǎng)景（網(wǎng)絡(luò)人臉圖像等）均取得不錯(cuò)的定位效果。此外，基于深度學(xué)習(xí)的面部特征點(diǎn)定位方法也取得令人矚目的結(jié)果。深度學(xué)習(xí)結(jié)合形狀回歸框架可以進(jìn)一步提升定位模型的精度，成為當(dāng)前特征定位的主流方法之一。下面我將具體介紹級(jí)聯(lián)形狀回歸和深度學(xué)習(xí)這兩大類方法的研究進(jìn)展。

級(jí)聯(lián)線性回歸模型

面部特征點(diǎn)定位問題可以看作是學(xué)習(xí)一個(gè)回歸函數(shù)F，以圖象I作為輸入，輸出θ為特征點(diǎn)的位置（人臉形狀）：θ = F（I）。簡(jiǎn)單的說，級(jí)聯(lián)回歸模型可以統(tǒng)一為以下框架：學(xué)習(xí)多個(gè)回歸函數(shù){f₁ ,…, f_n-1, f_n}來逼近函數(shù)F：

θ = F（I）= f_n (f_n-1 (…f₁(θ₀, I) ,I) , I)

θ_i= f_i (θ_i-1, I), i=1,…,n

所謂的級(jí)聯(lián)，即當(dāng)前函數(shù)fi的輸入依賴于上一級(jí)函數(shù)f_i-1的輸出θ_i-1，而每一個(gè)fi的學(xué)習(xí)目標(biāo)都是逼近特征點(diǎn)的真實(shí)位置θ，θ₀為初始形狀。通常情況，f_i不是直接回歸真實(shí)位置θ，而回歸當(dāng)前形狀θ_i-1與真實(shí)位置θ之間的差：Δθ_i = θ - θ_i-1。

接下來我將詳細(xì)介紹幾個(gè)典型的形狀回歸方法，他們根本的不同點(diǎn)在于函數(shù)f_i的設(shè)計(jì)不同以及輸入特征不同。

在加州理工學(xué)院從事博士后研究的Piotr Dollár于2010年首次提出級(jí)聯(lián)形狀回歸模型CascadedPose Regression（CPR），來預(yù)測(cè)物體的形狀，該工作發(fā)表在國際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議CVPR上。如下圖所示，如下圖所示，給定初始形狀θ0，通常為平均形狀，根據(jù)初始形狀θ0提取特征（兩個(gè)像素點(diǎn)的差值）作為函數(shù)f₁的輸入。每個(gè)函數(shù)fi建模成Random Fern回歸器，來預(yù)測(cè)當(dāng)前形狀θ_i-1與目標(biāo)形狀θ的差Δθ_i，并根據(jù)Δ?_i預(yù)測(cè)結(jié)果更新當(dāng)前形狀得θ_i = θ_i-1+Δ?_i，作為下一級(jí)函數(shù)fi+1的輸入。

該方法在人臉、老鼠和魚三個(gè)數(shù)據(jù)集上取得不錯(cuò)的實(shí)驗(yàn)結(jié)果，通用的算法框架亦可用于其他形狀估計(jì)任務(wù)，比如人體姿態(tài)估計(jì)等。該方法的不足之處在于對(duì)初始化形狀θ0比較敏感，使用不同的初始化做多次測(cè)試并融合多次預(yù)測(cè)結(jié)果可以一定程度上緩解初始化對(duì)于算法的影響，但并不能完全解決該問題，且多次測(cè)試會(huì)帶來額外的運(yùn)算開銷。當(dāng)目標(biāo)物體被遮擋時(shí)，性能也會(huì)變差。

解密：面部特征點(diǎn)檢測(cè)的關(guān)鍵技術(shù)

與上一個(gè)工作來自同一課題組的Xavier P. Burgos-Artizzu，針對(duì)CPR方法的不足，進(jìn)一步提出Robust Cascaded Pose Regression（RCPR）方法，并發(fā)表在2013年國際計(jì)算視覺會(huì)議ICCV上。為了解決遮擋問題，Piotr Dollár提出同時(shí)預(yù)測(cè)人臉形狀和特征點(diǎn)是否被遮擋的狀態(tài)，即fi的輸出包含Δθi和每個(gè)特征點(diǎn)是否被遮擋的狀態(tài)p_i：

{Δθ_i , p_i }= f_i(θ_i-1, I), i=1,…,n

當(dāng)某些特征點(diǎn)被遮擋時(shí)，則不選取該特征點(diǎn)所在區(qū)域的特征作為輸入，從而避免遮擋對(duì)定位的干擾。此外，作者提出智能重啟技術(shù)來解決形狀初始化敏感的問題：隨機(jī)初始化一組形狀，運(yùn)行{f₁ ,…,f_n-1, f_n}的前10%的函數(shù)，統(tǒng)計(jì)形狀預(yù)測(cè)的方差，如果方差小于一定閾值，說明這組初始化不錯(cuò)，則跑完剩下的90%的級(jí)聯(lián)函數(shù)，得到最終的預(yù)測(cè)結(jié)果；如果方差大于一定閾值，則說明初始化不理想，選擇重新初始化一組形狀。該策略想法直接，但效果很不錯(cuò)。

另外一個(gè)很有趣的工作Supervised Descent Method（SDM），從另一個(gè)角度思考問題，即考慮如何使用監(jiān)督梯度下降的方法來求解非線性最小二乘問題，并成功地應(yīng)用在面部特征點(diǎn)定位任務(wù)上。不難發(fā)現(xiàn)，該方法最終的算法框架也是一個(gè)級(jí)聯(lián)回歸模型。

與CPR和RCPR不同的地方在于：f_i建模成了線性回歸模型；fi的輸入為與人臉形狀相關(guān)的SIFT特征。該特征的提取也很簡(jiǎn)單，即在當(dāng)前人臉形狀θ_i-1的每個(gè)特征點(diǎn)上提取一個(gè)128維的SIFT特征，并將所有SIFT特征串聯(lián)到一起作為fi的輸入。

該方法在LFPW和LFW-A&C數(shù)據(jù)集上取得不錯(cuò)的定位結(jié)果。同時(shí)期的另一個(gè)工作DRMF則是使用支持向量回歸SVR來建?；貧w函數(shù)f_i，并使用形狀相關(guān)的HOG特征（提取方式與形狀相關(guān)的SIFT類似）作為f_i輸入，來級(jí)聯(lián)預(yù)測(cè)人臉形狀。與SDM最大的不同在于，DRMF對(duì)于人臉形狀做了參數(shù)化的建模。fi的目標(biāo)變?yōu)轭A(yù)測(cè)這些形狀參數(shù)而不再是直接的人臉形狀。這兩個(gè)工作同時(shí)發(fā)表在CVPR 2013上。由于人臉形狀參數(shù)化模型很難完美地刻畫所有形狀變化，SDM的實(shí)測(cè)效果要優(yōu)于DRMF。

微軟亞洲研究院孫劍研究員的團(tuán)隊(duì)在CVPR 2014上提出更加高效的級(jí)聯(lián)形狀回歸方法Regressing LocalBinary Features（LBF）。和SDM類似，fi也是建模成線性回歸模型；不同的地方在于，SDM直接使用SIFT特征，LBF則基于隨機(jī)森林回歸模型在局部區(qū)域?qū)W習(xí)稀疏二值化特征。通過學(xué)習(xí)稀疏二值化特征，大大減少了運(yùn)算開銷，比CRP、RCPR、SDM、DRMF等方法具有更高的運(yùn)行效率（LBF可以在手機(jī)上跑到300FPS），并且在IBUG公開評(píng)測(cè)集上取得優(yōu)于SDM、RCPR的性能。

解密：面部特征點(diǎn)檢測(cè)的關(guān)鍵技術(shù)

級(jí)聯(lián)形狀回歸模型成功的關(guān)鍵在于：

1. 使用了形狀相關(guān)特征，即函數(shù)fi的輸入和當(dāng)前的人臉形狀θi-1緊密相關(guān)；
2. 函數(shù)fi的目標(biāo)也與當(dāng)前的人臉形狀θi-1相關(guān)，即fi的優(yōu)化目標(biāo)為當(dāng)前形狀θi-1與真實(shí)位置θ之間的差Δθi。

此類方法在可控和非可控的場(chǎng)景下均取得良好的定位效果，且具有很好的實(shí)時(shí)性。

深度模型

以上介紹的級(jí)聯(lián)形狀回歸方法每一個(gè)回歸函數(shù)f_i都是淺層模型（線性回歸模型、Random Fern等）。深度網(wǎng)絡(luò)模型，比如卷積神經(jīng)網(wǎng)絡(luò)（CNN）、深度自編碼器（DAE）和受限玻爾茲曼機(jī)（RBM）在計(jì)算機(jī)視覺的諸多問題，如場(chǎng)景分類，目標(biāo)跟蹤，圖像分割等任務(wù)中有著廣泛的應(yīng)用，當(dāng)然也包括特征定位問題。具體的方法可以分為兩大類：使用深度模型建模人臉形狀和表觀的變化和基于深度網(wǎng)絡(luò)學(xué)習(xí)從人臉表觀到形狀的非線性映射函數(shù)。

主動(dòng)形狀模型ASM和主動(dòng)表觀模型AAM使用主成分分析（PCA）來建模人臉形狀的變化。由于姿態(tài)表情等因素的影響，線性PCA模型很難完美地刻畫不同表情和姿態(tài)下的人臉形狀變化。來自倫斯勒理工學(xué)院JiQiang教授的課題組在CVPR2013提出使用深度置信網(wǎng)絡(luò)（DBN）來刻畫不同表情下人臉形狀的復(fù)雜非線性變化。此外，為了處理不同姿態(tài)的特征點(diǎn)定位問題，進(jìn)一步使用3向RBM網(wǎng)絡(luò)建模從正面到非正面的人臉形狀變化。最終該方法在表情數(shù)據(jù)庫CK+上取得比線性模型AAM更好的定位結(jié)果。該方法在同時(shí)具備多姿態(tài)多表情的數(shù)據(jù)庫

ISL上也取得較好的定位效果，但對(duì)同時(shí)出現(xiàn)極端姿態(tài)和夸張表情變化的情況還不夠理想。

下圖是深度置信網(wǎng)絡(luò)（DBN）：建模不同表情下的人臉形狀變化的示意圖。

解密：面部特征點(diǎn)檢測(cè)的關(guān)鍵技術(shù)

香港中文大學(xué)湯曉鷗教授的課題組在CVPR 2013上提出3級(jí)卷積神經(jīng)網(wǎng)絡(luò)DCNN來實(shí)現(xiàn)面部特征點(diǎn)定位的方法。該方法也可以統(tǒng)一在級(jí)聯(lián)形狀回歸模型的大框架下，和CPR、RCPR、SDM、LBF等方法不一樣的是，DCNN使用深度模型-卷積神經(jīng)網(wǎng)絡(luò)，來實(shí)現(xiàn)fi。第一級(jí)f1使用人臉圖像的三塊不同區(qū)域（整張人臉，眼睛和鼻子區(qū)域，鼻子和嘴唇區(qū)域）作為輸入，分別訓(xùn)練3個(gè)卷積神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)特征點(diǎn)的位置，網(wǎng)絡(luò)結(jié)構(gòu)包含4個(gè)卷積層，3個(gè)Pooling層和2個(gè)全連接層，并融合三個(gè)網(wǎng)絡(luò)的預(yù)測(cè)來得到更加穩(wěn)定的定位結(jié)果。

后面兩級(jí)f2, f3在每個(gè)特征點(diǎn)附近抽取特征，針對(duì)每個(gè)特征點(diǎn)單獨(dú)訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)（2個(gè)卷積層，2個(gè)Pooling層和1個(gè)全連接層）來修正定位的結(jié)果。該方法在LFPW數(shù)據(jù)集上取得當(dāng)時(shí)最好的定位結(jié)果。

解密：面部特征點(diǎn)檢測(cè)的關(guān)鍵技術(shù)

借此機(jī)會(huì)也介紹本人發(fā)表在歐洲視覺會(huì)議ECCV2014的一個(gè)工作：即提出一種由粗到精的自編碼器網(wǎng)絡(luò)（CFAN）來描述從人臉表觀到人臉形狀的復(fù)雜非線性映射過程。該方法級(jí)聯(lián)了多個(gè)棧式自編碼器網(wǎng)絡(luò)f_i，每一個(gè)f_i刻畫從人臉表觀到人臉形狀的部分非線性映射。

具體來說，輸入一個(gè)低分辨率的人臉圖像I，第一層自編碼器網(wǎng)絡(luò)f₁可以快速地估計(jì)大致的人臉形狀，記作基于全局特征的棧式自編碼網(wǎng)絡(luò)。網(wǎng)絡(luò)f1包含三個(gè)隱層，隱層節(jié)點(diǎn)數(shù)分別為1600,900,400。然后提高人臉圖像的分辨率，并根據(jù)f₁得到的初始人臉形狀θ₁，抽取聯(lián)合局部特征，輸入到下一層自編碼器網(wǎng)絡(luò)f₂來同時(shí)優(yōu)化、調(diào)整所有特征點(diǎn)的位置，記作基于局部特征的棧式自編碼網(wǎng)絡(luò)。該方法級(jí)聯(lián)了3個(gè)局部棧式自編碼網(wǎng)絡(luò){f₂ , f₃, f₄}直到在訓(xùn)練集上收斂。每一個(gè)局部棧式自編碼網(wǎng)絡(luò)包含三個(gè)隱層，隱層節(jié)點(diǎn)數(shù)分別為1296,784,400。得益于深度模型強(qiáng)大的非線性刻畫能力，該方法在XM2VTS，LFPW，HELEN數(shù)據(jù)集上取得比DRMF、SDM更好的結(jié)果。此外，CFAN可以實(shí)時(shí)地完成人臉面部特征點(diǎn)定位（在I7的臺(tái)式機(jī)上達(dá)到23毫秒/張），比DCNN（120毫秒/張）具有更快的處理速度。

下圖是CFAN：基于由粗到精自編碼器網(wǎng)絡(luò)的實(shí)時(shí)面部特征點(diǎn)定位方法的示意圖。

解密：面部特征點(diǎn)檢測(cè)的關(guān)鍵技術(shù)

以上基于級(jí)聯(lián)形狀回歸和深度學(xué)習(xí)的方法對(duì)于大姿態(tài)（左右旋轉(zhuǎn)-60°~+60°）、各種表情變化都能得到較好的定位結(jié)果，處理速度快，具備很好的產(chǎn)品應(yīng)用前景。針對(duì)純側(cè)面（±90°）、部分遮擋以及人臉檢測(cè)與特征定位聯(lián)合估計(jì)等問題的解決仍是目前的研究熱點(diǎn)。

另外，關(guān)于人臉檢測(cè)：人臉檢測(cè)發(fā)展：從VJ到深度學(xué)習(xí)（上），人臉檢測(cè)發(fā)展：從VJ到深度學(xué)習(xí)（下）。

雷鋒網(wǎng)注：本文由深度學(xué)習(xí)大講堂授權(quán)雷鋒網(wǎng)發(fā)布，轉(zhuǎn)載請(qǐng)聯(lián)系授權(quán)，并保留出處和作者，不得刪減內(nèi)容。

解密：面部特征點(diǎn)檢測(cè)的關(guān)鍵技術(shù)