0
雷鋒網(wǎng)按:本文作者張正友博士,現(xiàn)任微軟研究院視覺技術組高級研究員,是世界著名的計算機視覺和多媒體技術的專家,ACM Fellow,IEEE Fellow。他在立體視覺、三維重建、運動分析、圖像配準、攝像機自標定等方面都有開創(chuàng)性的貢獻。他發(fā)明的平板攝像機標定法在全世界被普遍采用,被稱之為“張氏標定法”。張正友博士參與了多項歐洲及法國的計算機視覺和機器人重大項目,在Siggraph等國際學術會議和國際刊物上發(fā)表論文100余篇。
人臉表情識別(FER)作為智能化人機交互技術中的一個重要組成部分,近年來得到了廣泛的關注,涌現(xiàn)出許多新方法。人臉表情識別(FER)系統(tǒng)由人臉檢測、表情特征提取和表情分類組成。
地平線《大牛講堂》有幸請到了世界著名計算機視覺和多媒體技術專家,微軟研究院視覺技術組高級研究員張正友博士,來與大家分享“基于幾何與Gabor小波的多層感知表情識別”和“基于特征的識別”兩項面部表情識別技術。
一、基于特征的面部表情識別
張正友博士分享了兩種人臉特征識別方法:置信點集的幾何位置和這些點的多尺度多方向Gabor小波系數(shù),二者既可以獨立使用也可以結合使用。張正友博士的研究結果表明,Gabor小波系數(shù)更為有效。由于第一層網(wǎng)絡的作用是非線性降維,張正友博士還研究了隱含單元(Hidden Units)的數(shù)量,也就是面部表情特征表示的維數(shù),得出5-10維足以表達特征空間的結果。之后,分析了每個置信點對表情表示的重要性,其敏感度分析表明,臉頰和前額上的點包含的有用信息很少,舍去之后,不僅計算效率會提升,性能也略有提升。最后,張正友博士研究了圖像尺度的重要性,實驗表明表情主要是低頻過程,空間分辨率64x64就足夠了。
1.1 面部表情識別(FER)的難點
①不同的人表情變化;②同一人上下文變化。
1.2 自動FER系統(tǒng)需要解決
①面部檢測與定位,②人臉特征提取和表情識別。
定位問題前人已經做得很好,這里不討論。
人臉特征提取是為了找到人臉最合適的表示方式,從而便于識別。主要有兩種方式:整體模版匹配系統(tǒng)和基于幾何特征的系統(tǒng)。在整體系統(tǒng),模板可以是像素點或是向量。在幾何特征系統(tǒng)中,廣泛采用主成份分析和多層神經網(wǎng)絡來獲取人臉的低維表示,并在圖片中檢測到主要的特征點和主要部分。通過特征點的距離和主要部分的相對尺寸得到特征向量。基于特征的方法比基于模板的方法計算量更大,但是對尺度、大小、頭部方向、面部位置不敏感。
①首先定位一系列特征點:
②再通過圖像卷積抽取特征點的Gabor小波系數(shù),以Gabor特征的匹配距離作為相似度的度量標準。在特征點:
③提取特征之后,表情識別就成為了一個傳統(tǒng)的分類問題??梢酝ㄟ^多層神經網(wǎng)絡來解決:
準則是最小化交叉熵(Cross-entropy):
t是label,y是實際輸出。
1.3 實驗結果
從結果看,Gabor方法優(yōu)于幾何方法,二者結合效果更佳
可以看到,隱含層單元達到5-7個時,識別率已經趨于穩(wěn)定,那就是說5-7個單元已經足夠了。
二、靜態(tài)表情圖像的多層深度網(wǎng)絡學習
2015EmotiW的表情識別方法,基于卷積神經網(wǎng)絡(convolutional neural networks (CNN))。卷積神經網(wǎng)絡(CNN)是一種前饋神經網(wǎng)絡,它的人工神經元可以響應一部分覆蓋范圍內的周圍單元,對于大型圖像處理有出色表現(xiàn)。卷積神經網(wǎng)絡由一個或多個卷積層和頂端的全連通層(對應經典的神經網(wǎng)絡)組成,同時也包括關聯(lián)權重和池化層(pooling layer)。這一結構使得卷積神經網(wǎng)絡能夠利用輸入數(shù)據(jù)的二維結構。與其他深度學習結構相比,卷積神經網(wǎng)絡在圖像和語音識別方面能夠給出更優(yōu)的結果。這一模型也可以使用反向傳播算法進行訓練。相比較其他深度、前饋神經網(wǎng)絡,卷積神經網(wǎng)絡需要估計的參數(shù)更少,使之成為一種頗具吸引力的深度學習結構。
2015EmotiW的表情識別方法,針對7種基本情感,其中包括一個人臉檢測模塊(基于三個性能很好(state-of-art)的人臉檢測模塊)。每個模型都是隨機初始化并在Facial Expression Recognition (FER) Chal-lenge 2013 上預訓練的,之后在SFEW 2.0訓練集上進行細調。為了結合多個CNN模型,張正友博士提出了聯(lián)眾學習權重的策略:1、最小化對數(shù)似然損失(log like-lihood loss);2、最小化合頁損失(hinge loss) 。
2.1人臉檢測(定位)
由三部分構成:1. 聯(lián)合級聯(lián)檢測與校準(the joint cascade detection and alignment (JDA) detector);2.基于深度卷積神經網(wǎng)絡(DCNN);3.混合樹(Mot)。
2.2 人臉圖像處理
有助于去掉無關噪聲,統(tǒng)一人臉大小,從而使識別更準確。首先轉化為48x48的灰度圖。然后標準直方圖均衡化,接著去除不平衡光照。最后,化為0均值,單位方差的向量。
2.3 網(wǎng)絡模型
基本網(wǎng)絡模型
包括5個卷基層,3個隨機pooling層(非max pooling層)。隨機pooling是根據(jù)歸一化輸出的分布得到的概率分布從而隨機選擇像素點。全連接層包含dropout,隨機機制減小了過擬合(over-fitting)的風險。
輸入是處理好的48x48人臉圖像。第二、三曾是隨機pooling層,在pooling前有兩個卷基層。卷基層和全連接層的激活函數(shù)都是ReLU。最后階段包括softmax層,之后是負對數(shù)似然損失:
網(wǎng)絡圖如下:
加入隨機擾動
加入隨機擾動可以增加對臉部偏移和旋轉的魯棒性。通過如下隨機仿射扭曲圖像:
擾動下learning與voting
由于帶有擾動,損失函數(shù)應當包含所有擾動的情況:
P是擾動種類個數(shù)。每個測試圖像的響應是所有對應擾動圖像響應的average voting。
2.4 多網(wǎng)絡學習
在CNN模型的頂端,放置一個多網(wǎng)絡(Multiple Network)增強性能。典型的就是對輸出求均值。觀察表明,隨機初始化不僅導致網(wǎng)絡參數(shù)變化,同時使得不同網(wǎng)絡對不同數(shù)據(jù)的分類能力產生差別。因此,平均權重可能是次最優(yōu)的因為voting沒有變化。更好的方法是對每個網(wǎng)絡適應地分配權重,使得整體網(wǎng)絡互補。
為了學習權重w,先獨立地訓練不同初始化的CNN。在權重上輕易損失函數(shù)??紤]如下兩種優(yōu)化框架:
最優(yōu)整體對數(shù)似然損失
最優(yōu)整體合頁損失
雷鋒網(wǎng)注:本文由大牛講堂授權發(fā)布雷鋒網(wǎng),如需轉載請聯(lián)系原作者,并注明作者和出處,不得刪減內容。有興趣可以關注公號【地平線機器人技術】,了解最新消息。
雷峰網(wǎng)原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。