孫啟超：卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)

本文作者：叢末

2018-08-22 09:31

導(dǎo)語(yǔ)：人臉識(shí)別中的關(guān)鍵技術(shù)，就是卷積神經(jīng)網(wǎng)絡(luò)。

隨著 iPhone X 的發(fā)布，F(xiàn)ace ID 人臉識(shí)別技術(shù)開(kāi)始進(jìn)入人們的日常生活中，當(dāng)我們拿起手機(jī)并看著它的時(shí)候就可以實(shí)現(xiàn)手機(jī)解鎖的功能。而人臉識(shí)別中的關(guān)鍵技術(shù)就是卷積神經(jīng)網(wǎng)絡(luò)。

近日，在雷鋒網(wǎng) AI 研習(xí)社公開(kāi)課上，法國(guó)蒙彼利埃大學(xué)孫啟超就講述了卷積神經(jīng)網(wǎng)絡(luò)的基本原理以及人臉識(shí)別技術(shù)是如何運(yùn)行的。公開(kāi)課回放視頻網(wǎng)址：http://www.mooc.ai/open/course/524

孫啟超：法國(guó)蒙彼利埃大學(xué) MBA 在讀，CSDN 百萬(wàn)博客專家。

分享主題：卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用

分享提綱：

1. 介紹卷積神經(jīng)網(wǎng)絡(luò)的基本原理和工作流程

2. 講述卷積神經(jīng)網(wǎng)絡(luò)的四大基本組件：池化操作，激活函數(shù)，全連接層，目標(biāo)函數(shù)

3. 解析通用的人臉識(shí)別技術(shù)

雷鋒網(wǎng) AI 研習(xí)社將其分享內(nèi)容整理如下：

我今天跟大家分享一下卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用。首先介紹一下深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的關(guān)系。人工智能包含了機(jī)器學(xué)習(xí)這一個(gè)子領(lǐng)域，機(jī)器學(xué)習(xí)又包含了表示學(xué)習(xí)（一種能自動(dòng)抽取特征的學(xué)習(xí)方式），而深度學(xué)習(xí)則是表示學(xué)習(xí)中最具代表性的一種學(xué)習(xí)。我們今天要講的 CNN 即卷積神經(jīng)網(wǎng)絡(luò)，就是深度學(xué)習(xí)中的一種。

孫啟超：卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)

機(jī)器學(xué)習(xí)的核心思想其實(shí)就是利用特征來(lái)學(xué)習(xí)到我們所需要的知識(shí)，因而一種新的工作出現(xiàn)了，那就是專門做特征工程的一類工程師。而特征工程的好壞，會(huì)影響機(jī)器學(xué)習(xí)最終效果?？茖W(xué)家們就想到，能不能讓機(jī)器自動(dòng)學(xué)習(xí)特征，而不需要讓人去做特征工程呢？結(jié)論是：可以。表示學(xué)習(xí)就是利用特征去學(xué)習(xí)。

深度學(xué)習(xí)的使用，其實(shí)非常簡(jiǎn)單，就是端到端的學(xué)習(xí)，只需要三步：第一，把數(shù)據(jù)給它（機(jī)器）；第二，等深度學(xué)習(xí)處理完；第三，拿到結(jié)果。

下面，我們來(lái)看一下我們今天要講的卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程：

? 1980 年，科學(xué)家提出了「神經(jīng)認(rèn)知」，現(xiàn)在認(rèn)為「神經(jīng)認(rèn)知」是卷積神經(jīng)網(wǎng)絡(luò)的前身；

? 1998 年，兩位科學(xué)家提出了基于梯度學(xué)習(xí)的卷積神經(jīng)網(wǎng)，叫 LeNet。它是第一個(gè)大規(guī)模應(yīng)用的圖像識(shí)別。美國(guó)當(dāng)時(shí)大量的郵寄工作，需要專人進(jìn)行報(bào)郵編、寄送地址等工作。人工去做的話，效率很低，一個(gè)人一秒能識(shí)別幾個(gè)？就算識(shí)別速度很快，然而人的速度越快，錯(cuò)誤率可能就越高，所以這個(gè) LeNet 就被應(yīng)用于手寫數(shù)字的字符識(shí)別，并且錯(cuò)誤率只有 1%，可大規(guī)模進(jìn)行運(yùn)用；

? 2012 年，Hinton 團(tuán)隊(duì)提出卷積神經(jīng)網(wǎng)絡(luò) Alex-net，該團(tuán)隊(duì)參加了李菲菲教授的 Image Net 的比賽，拿到了冠軍。當(dāng)時(shí)它以比第二名提高 12% 的準(zhǔn)確率遙遙領(lǐng)先。以前，第一名比第二名一般只會(huì)提前一、二個(gè)百分點(diǎn)，三、四個(gè)百分點(diǎn)就很多了，而這一次，這個(gè)團(tuán)隊(duì)一項(xiàng)就領(lǐng)先了十二個(gè)百分點(diǎn)。這是因?yàn)?Alex-net 第一次用到了 ReLU 激活函數(shù)、最大池化、DROP Out 以及 GPU 加速這些新技術(shù)；

? 2014 年，Google 提出 Inception-net，里面的核心思想就是可反復(fù)堆疊的高效卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，將錯(cuò)誤率降到了 Alex-net 的一半；

? 2015 年，微軟的 ResNet 成功訓(xùn)練了 152 層的深層次網(wǎng)絡(luò)。以前的一些神經(jīng)網(wǎng)絡(luò)，這邊輸入，中間是很多神經(jīng)元，但是只有一層。而增加層次的技術(shù)，在當(dāng)時(shí)難以取得突破。微軟這個(gè) ResNet 一下增加到 152 層，則算是一個(gè)突破。同時(shí)，它將錯(cuò)誤率降低到 3.46%，再次刷新記錄。

? 此后，基本上每年甚至每幾個(gè)月都會(huì)出現(xiàn)新一代的技術(shù)，例如新的網(wǎng)絡(luò)結(jié)構(gòu)，更深的網(wǎng)絡(luò)的訓(xùn)練方法等。可以說(shuō)，是 CNN 引領(lǐng)了這次深度學(xué)習(xí)的浪潮。

那卷積神經(jīng)網(wǎng)絡(luò)到底是什么？它的核心是卷積操作。

大家可以參考下圖，左上角是一個(gè) 5*5 的綠色矩陣，矩陣中的黃色區(qū)域是一個(gè) 3*3 的卷積核。黃色區(qū)域的作用，是把覆蓋在矩陣上的數(shù)進(jìn)行加權(quán)求和，計(jì)算出來(lái)的數(shù)（見(jiàn)紫色區(qū)域）將會(huì)被放入一個(gè)新的矩陣。

孫啟超：卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)

然后看右上角的第二張圖片，黃色的區(qū)域向右移動(dòng)一位，就是一步，這個(gè)「步」指的是步長(zhǎng)——CNN 里面的另一個(gè)參數(shù)（一個(gè)參數(shù)是卷積核），這里的步長(zhǎng)被設(shè)置為 1 步。移動(dòng) 1 步后，同樣對(duì)黃色區(qū)域進(jìn)行加權(quán)求和，又得出一個(gè)新的數(shù)（與第一個(gè)數(shù)一起被放入紫色區(qū)域）。

我們可以將整個(gè)黃色區(qū)域看成一個(gè)相框，大小、長(zhǎng)寬都是固定的，順序?yàn)閺淖笸摇纳贤?，移?dòng)三次，依次會(huì)出現(xiàn)三個(gè)新的數(shù)，再依次放到下一個(gè)矩陣中進(jìn)行計(jì)算。這是一種局部操作，原始數(shù)據(jù)（5*5 的輸入）經(jīng)過(guò) 9 次卷積，就能得到卷積后的結(jié)果。這個(gè)結(jié)果叫做卷積特征，它是一個(gè)新的 3*3 矩陣——這個(gè)矩陣又作為下一層操作的輸入，并進(jìn)行一些池化操作。

接下來(lái)我們看一下 CNN 的工作流程。先看一下幾個(gè)核心的概念：第一個(gè)就是我們剛才講的卷積操作；第二個(gè)就是池化操作，這個(gè)也是非常重要的；第三個(gè)就是它的激活函數(shù)、全連接層和目標(biāo)函數(shù)。

然后再看下方這張長(zhǎng)圖。第一步，我們先把原始數(shù)據(jù)輸入給它（機(jī)器），然后以例如卷積層+池化層+激活函數(shù)的組合形式進(jìn)行卷積操作。之后，再同樣采用這種組合形式進(jìn)行下一組卷積操作……就這樣不停循環(huán)，直到把所有特征都抽取出來(lái)。接著，抽取出來(lái)的所有特征與全連接層進(jìn)行對(duì)接，得出預(yù)測(cè)的值，并與目標(biāo)值進(jìn)行對(duì)比。最后，機(jī)器會(huì)對(duì)二者的差值進(jìn)行修復(fù)，并重新訓(xùn)練。這是一個(gè)完整的工作流程。

孫啟超：卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)

接下來(lái)我們?cè)倏匆幌戮矸e操作，它沒(méi)有參數(shù)，我們只需要給它設(shè)置最大池化和平均池化。最大池化是指將覆蓋區(qū)域的最大值取出來(lái)——它的目的就是把最顯著的特征取出來(lái)，將一些不太明顯的特征忽略掉。

孫啟超：卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)

卷積操作有三大特點(diǎn)：

第一個(gè)是特征不變性。我們可以想象一張圖片卷積以后，圖片的右下角為一條直線，如果它在圖像的左上角識(shí)別的（圖形）卷積特征與直線的卷積特征一致，那左上角的這個(gè)圖形一定也是一條直線，因?yàn)樘卣饕粯?。這也是卷積神經(jīng)網(wǎng)絡(luò)里面的一個(gè)特性，即兩個(gè)特征的相對(duì)位置要比它們?cè)趫D片中的絕對(duì)位置要重要。

第二個(gè)特點(diǎn)就是特征降維。我們上面用的是 5*5 的矩陣，但實(shí)際上 10024*798 的圖片像素需要消耗很大的性能，而其中大部分都是沒(méi)必要的計(jì)算，最大池化就是將最顯著的特征取出來(lái)，舍棄那些不太明顯的特征，以節(jié)省一些計(jì)算資源。

第三個(gè)特點(diǎn)就是防止過(guò)擬合。因?yàn)槌槿〉亩际亲蠲黠@的特征，能夠防止過(guò)度擬合。

下面我們?cè)倏醇せ詈瘮?shù)。以前從事過(guò)機(jī)器學(xué)習(xí)的同學(xué)，可能會(huì)接觸到另一個(gè)激活函數(shù)——sigmoid 函數(shù)，它是取值范圍為 0-1 的一條曲線。

而我們要講的這個(gè) ReLU 函數(shù)，可表示為下圖的藍(lán)線。它實(shí)際上是一個(gè)分段函數(shù)，當(dāng)你給這個(gè)函數(shù)的值小于 0 的時(shí)候，不管負(fù)多少，都會(huì)返回一個(gè) 0。當(dāng)你給它大于等于 0 的值的時(shí)候，也不管給出的是什么值，它都能返回本身（X），這其實(shí)是一個(gè)很簡(jiǎn)單的函數(shù)。

孫啟超：卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)

那激活函數(shù)到底有什么用？

打個(gè)比方，我手上拿著一根針，要去扎另一只手，剛開(kāi)始隔得很遠(yuǎn)，我不會(huì)感到疼，然后針慢慢接近我的另一只手，直到最后扎到了，我手上的這塊神經(jīng)就會(huì)告訴我的大腦，我的手扎到了——我就會(huì)感到疼，這就相當(dāng)于「激活」了。

針與我的另一只手的距離有一個(gè)閾值，當(dāng)這個(gè)距離小于了這個(gè)閾值，并最終完全貼近了，我的神經(jīng)就會(huì)馬上告訴我的大腦（疼），從而激活我的「疼感」——激活函數(shù)就是這個(gè)原理。機(jī)器平時(shí)訓(xùn)練出來(lái)的一些東西，如果沒(méi)有達(dá)到閾值，特征就不會(huì)被激活；而如果超過(guò)閾值，特征就會(huì)被激活并被輸出。

再往下，我們就以一個(gè)整體的視角來(lái)看一下卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)作。先看下面的這張圖，這是一個(gè)字母 A，首先要進(jìn)行卷積操作，之后再根據(jù)設(shè)置的卷積核和步長(zhǎng)找到卷積核的特征，最后把所有激活的神經(jīng)元和最后的全連接層一一對(duì)應(yīng)，通過(guò)矩陣乘法，看它們是否真正被激活。

孫啟超：卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)

全連接層在整個(gè) CNN 中起到「分類器」的作用，該作用一般在最后實(shí)現(xiàn)。

然后是目標(biāo)函數(shù)。卷積神經(jīng)網(wǎng)絡(luò)中最多的回歸問(wèn)題，用的都是歐式（Euclidean）距離，算法為：孫啟超：卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì) 。我們一般采用最右邊的公式，該公式為求和公式，從 1 開(kāi)始取到 n，對(duì)兩個(gè)數(shù)之間的差值進(jìn)行計(jì)算。

這個(gè)歐式距離有什么用呢？比如兩個(gè)目標(biāo)，如果距離近，相似度就比較高。因此通過(guò)求歐式距離，我們可以判斷它們是否近似。

卷積神經(jīng)網(wǎng)絡(luò)的基本原理以及幾個(gè)核心概念都介紹完了。接下來(lái)我們進(jìn)入人臉識(shí)別的環(huán)節(jié)，總體分為四步：第一步就是人臉邊框檢測(cè)，第二步就是圖像校準(zhǔn)，第三步是圖像轉(zhuǎn)向量，第四步是向量對(duì)比。

第一步人臉邊框檢測(cè)。一張圖片上，有可能不止一張臉，而是有多張臉。不管有多少?gòu)埬?，我們先把符合人臉特征的邊框找到，并且把邊框給截取出來(lái)。

怎么截取？定位。就是根據(jù)人臉特征來(lái)進(jìn)行定位，就像剛剛所說(shuō)的，如果某個(gè)位置有一只眼睛，其對(duì)稱的地方也有一只眼睛，那（機(jī)器）就能找到眼部位置，進(jìn)而也能找到眼角部分。在人臉識(shí)別中，邊框特征范圍非常重要，因?yàn)闄C(jī)器依靠這些，就可以劃出完整的臉部位置。機(jī)器可以參照的主要特征之一是下巴，因?yàn)樽旖强梢詮堥_(kāi)或者合閉，但是下巴一般不會(huì)有太大變動(dòng)。第二個(gè)是眉毛——找到眼睛了，眉毛就好找了。第三個(gè)是鼻梁、鼻尖，上、下嘴唇。

將這些特征都找到后，就要找到臉的邊框——可能為方臉、瓜子臉以及圓臉，機(jī)器會(huì)在臉部邊框上生成一些點(diǎn)，之后使用圖形邊框（如圓邊框）去進(jìn)行對(duì)比，發(fā)現(xiàn)差了一點(diǎn)，它就會(huì)不停調(diào)整系數(shù)，直到完全符合。

孫啟超：卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)

但截取時(shí)，臉附近需要留出一定距離，不能完全按照邊框去截取，例如，上圖中的頭發(fā)部分，（人）可能戴了帽子，因此機(jī)器就不能進(jìn)行完全截取，而是在周圍留出一定空間，再把圖片截取出來(lái)。如果一張臉有多個(gè)點(diǎn)，那就截出多個(gè)人臉的邊框。

第二步就是校準(zhǔn)圖像。這個(gè)概念其實(shí)跟計(jì)算機(jī)處理數(shù)據(jù)的思路一致。不管你給機(jī)器圖片、語(yǔ)音、數(shù)字、字符串，或者是別的一些數(shù)據(jù)，它都會(huì)將其轉(zhuǎn)化為計(jì)算機(jī)可以識(shí)別的數(shù)據(jù)。

人臉校準(zhǔn)也是，給機(jī)器的頭不管是歪頭、低頭還是仰著頭——位置都不正，那就先將臉邊框截出來(lái)，為每個(gè)點(diǎn)進(jìn)行定位（如下圖中的綠點(diǎn)），再根據(jù)點(diǎn)定位出一個(gè)坐標(biāo)，跟真正擺正的臉的坐標(biāo)進(jìn)行對(duì)比，二者相差的角度，就是頭歪的角度，將圖像反向旋轉(zhuǎn)一下，圖像就變正了。

孫啟超：卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)

這個(gè)效果也是非常有用的，因?yàn)樗梢詼p少不必要的誤差。機(jī)器學(xué)習(xí)也是這樣，當(dāng)你給它一堆沒(méi)有處理過(guò)的數(shù)據(jù)進(jìn)行訓(xùn)練的時(shí)候，它最終訓(xùn)練出來(lái)的結(jié)果不僅有可能是不好的，還有可能是相反的，為你做出的決定都是錯(cuò)誤的。比如做商品智能推薦，如果輸入的數(shù)據(jù)沒(méi)有經(jīng)過(guò)處理，甚至所設(shè)置的維度都是沒(méi)有用的，機(jī)器可能會(huì)往錯(cuò)誤的方向去做推薦。

因此對(duì)數(shù)據(jù)的處理非常重要，要去掉不必要的誤差，并將所有的算法都放在真正有用的計(jì)算上面——這個(gè)思想很重要。

第三個(gè)是圖像轉(zhuǎn)向量。該圖像轉(zhuǎn)向量是怎么生成的？就是卷積、池化操作過(guò)后生成的圖像向量。向量既有大小又有方向，如果兩個(gè)向量間的夾角非常小，那這兩個(gè)向量就非常接近。

孫啟超：卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)

通過(guò)比較向量間的夾角，可以判斷兩個(gè)目標(biāo)是否相似。例如，我們需要判斷計(jì)算機(jī)視覺(jué)相關(guān)的兩篇文章是否相似，首先我們要找到兩篇文章，將其中一篇文章的關(guān)鍵詞提取出來(lái)——一個(gè)關(guān)鍵詞就是一個(gè)向量，所有關(guān)鍵詞都找出來(lái)以后，計(jì)算一下向量的方向和大小。另外一篇也進(jìn)行同樣的操作，最后機(jī)器再對(duì)兩組向量進(jìn)行對(duì)比，如果幾乎重合，則說(shuō)明兩篇文章的內(nèi)容非常相似。向量的作用，在機(jī)器學(xué)習(xí)中是非常重要的。

圖像轉(zhuǎn)向量之后，就需要把這個(gè)向量計(jì)算出來(lái)，然后和目標(biāo)函數(shù)的向量做對(duì)比，再用余項(xiàng)定理求出它們之間的夾角——前面兩篇相似文章的對(duì)比，就使用了這一定理。這一向量與目標(biāo)向量不一定要完全重合，夾角在很小的情況下，只要在閾值之內(nèi)，就可以判斷二者相似，而閾值都是人為設(shè)置好的。

最后一步就是向量對(duì)比。相同的人臉，對(duì)應(yīng)的向量距離??；不同的人臉，向量距離自然就大。

向量計(jì)算中的有一個(gè)名詞——內(nèi)積，它是對(duì)應(yīng)元素乘積的求和，可以計(jì)算出剛才上面所提到的夾角。公式為：孫啟超：卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì) 。夾角越小，說(shuō)明兩張人臉越相似。

以上就是本期嘉賓的全部分享內(nèi)容。更多公開(kāi)課視頻請(qǐng)到雷鋒網(wǎng) AI 研習(xí)社社區(qū)觀看。關(guān)注微信公眾號(hào)：AI 研習(xí)社（okweiwu），可獲取最新公開(kāi)課直播時(shí)間預(yù)告。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

7人收藏

相關(guān)文章

叢末

編輯

發(fā)私信

當(dāng)月熱門文章