丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給叢末
發(fā)送

0

孫啟超:卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)

本文作者: 叢末 2018-08-22 09:31
導(dǎo)語:人臉識(shí)別中的關(guān)鍵技術(shù),就是卷積神經(jīng)網(wǎng)絡(luò)。

隨著 iPhone X 的發(fā)布,F(xiàn)ace ID 人臉識(shí)別技術(shù)開始進(jìn)入人們的日常生活中,當(dāng)我們拿起手機(jī)并看著它的時(shí)候就可以實(shí)現(xiàn)手機(jī)解鎖的功能。而人臉識(shí)別中的關(guān)鍵技術(shù)就是卷積神經(jīng)網(wǎng)絡(luò)。

近日,在雷鋒網(wǎng) AI 研習(xí)社公開課上,法國蒙彼利埃大學(xué)孫啟超就講述了卷積神經(jīng)網(wǎng)絡(luò)的基本原理以及人臉識(shí)別技術(shù)是如何運(yùn)行的。公開課回放視頻網(wǎng)址:http://www.mooc.ai/open/course/524 

孫啟超:法國蒙彼利埃大學(xué) MBA 在讀,CSDN 百萬博客專家。

分享主題:卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用

分享提綱:

1. 介紹卷積神經(jīng)網(wǎng)絡(luò)的基本原理和工作流程

2. 講述卷積神經(jīng)網(wǎng)絡(luò)的四大基本組件:池化操作,激活函數(shù),全連接層,目標(biāo)函數(shù)

3. 解析通用的人臉識(shí)別技術(shù)

雷鋒網(wǎng) AI 研習(xí)社將其分享內(nèi)容整理如下:

我今天跟大家分享一下卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用。首先介紹一下深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的關(guān)系。人工智能包含了機(jī)器學(xué)習(xí)這一個(gè)子領(lǐng)域,機(jī)器學(xué)習(xí)又包含了表示學(xué)習(xí)(一種能自動(dòng)抽取特征的學(xué)習(xí)方式),而深度學(xué)習(xí)則是表示學(xué)習(xí)中最具代表性的一種學(xué)習(xí)。我們今天要講的 CNN 即卷積神經(jīng)網(wǎng)絡(luò),就是深度學(xué)習(xí)中的一種。

 孫啟超:卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)

機(jī)器學(xué)習(xí)的核心思想其實(shí)就是利用特征來學(xué)習(xí)到我們所需要的知識(shí),因而一種新的工作出現(xiàn)了,那就是專門做特征工程的一類工程師。而特征工程的好壞,會(huì)影響機(jī)器學(xué)習(xí)最終效果??茖W(xué)家們就想到,能不能讓機(jī)器自動(dòng)學(xué)習(xí)特征,而不需要讓人去做特征工程呢?結(jié)論是:可以。表示學(xué)習(xí)就是利用特征去學(xué)習(xí)。

深度學(xué)習(xí)的使用,其實(shí)非常簡單,就是端到端的學(xué)習(xí),只需要三步:第一,把數(shù)據(jù)給它(機(jī)器);第二,等深度學(xué)習(xí)處理完;第三,拿到結(jié)果。

下面,我們來看一下我們今天要講的卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程:

? 1980 年,科學(xué)家提出了「神經(jīng)認(rèn)知」,現(xiàn)在認(rèn)為「神經(jīng)認(rèn)知」是卷積神經(jīng)網(wǎng)絡(luò)的前身;

? 1998 年,兩位科學(xué)家提出了基于梯度學(xué)習(xí)的卷積神經(jīng)網(wǎng),叫 LeNet。它是第一個(gè)大規(guī)模應(yīng)用的圖像識(shí)別。美國當(dāng)時(shí)大量的郵寄工作,需要專人進(jìn)行報(bào)郵編、寄送地址等工作。人工去做的話,效率很低,一個(gè)人一秒能識(shí)別幾個(gè)?就算識(shí)別速度很快,然而人的速度越快,錯(cuò)誤率可能就越高,所以這個(gè) LeNet 就被應(yīng)用于手寫數(shù)字的字符識(shí)別,并且錯(cuò)誤率只有 1%,可大規(guī)模進(jìn)行運(yùn)用;

? 2012 年,Hinton 團(tuán)隊(duì)提出卷積神經(jīng)網(wǎng)絡(luò) Alex-net,該團(tuán)隊(duì)參加了李菲菲教授的 Image Net 的比賽,拿到了冠軍。當(dāng)時(shí)它以比第二名提高 12% 的準(zhǔn)確率遙遙領(lǐng)先。以前,第一名比第二名一般只會(huì)提前一、二個(gè)百分點(diǎn),三、四個(gè)百分點(diǎn)就很多了,而這一次,這個(gè)團(tuán)隊(duì)一項(xiàng)就領(lǐng)先了十二個(gè)百分點(diǎn)。這是因?yàn)?Alex-net 第一次用到了 ReLU 激活函數(shù)、最大池化、DROP Out 以及 GPU 加速這些新技術(shù);

? 2014 年,Google 提出 Inception-net,里面的核心思想就是可反復(fù)堆疊的高效卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將錯(cuò)誤率降到了 Alex-net 的一半;

? 2015 年,微軟的 ResNet 成功訓(xùn)練了 152 層的深層次網(wǎng)絡(luò)。以前的一些神經(jīng)網(wǎng)絡(luò),這邊輸入,中間是很多神經(jīng)元,但是只有一層。而增加層次的技術(shù),在當(dāng)時(shí)難以取得突破。微軟這個(gè) ResNet 一下增加到 152 層,則算是一個(gè)突破。同時(shí),它將錯(cuò)誤率降低到 3.46%,再次刷新記錄。

? 此后,基本上每年甚至每幾個(gè)月都會(huì)出現(xiàn)新一代的技術(shù),例如新的網(wǎng)絡(luò)結(jié)構(gòu),更深的網(wǎng)絡(luò)的訓(xùn)練方法等。可以說,是 CNN 引領(lǐng)了這次深度學(xué)習(xí)的浪潮。

那卷積神經(jīng)網(wǎng)絡(luò)到底是什么?它的核心是卷積操作。

大家可以參考下圖,左上角是一個(gè) 5*5 的綠色矩陣,矩陣中的黃色區(qū)域是一個(gè) 3*3 的卷積核。黃色區(qū)域的作用,是把覆蓋在矩陣上的數(shù)進(jìn)行加權(quán)求和,計(jì)算出來的數(shù)(見紫色區(qū)域)將會(huì)被放入一個(gè)新的矩陣。

 

孫啟超:卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)

然后看右上角的第二張圖片,黃色的區(qū)域向右移動(dòng)一位,就是一步,這個(gè)「步」指的是步長——CNN 里面的另一個(gè)參數(shù)(一個(gè)參數(shù)是卷積核),這里的步長被設(shè)置為 1 步。移動(dòng) 1 步后,同樣對黃色區(qū)域進(jìn)行加權(quán)求和,又得出一個(gè)新的數(shù)(與第一個(gè)數(shù)一起被放入紫色區(qū)域)。

我們可以將整個(gè)黃色區(qū)域看成一個(gè)相框,大小、長寬都是固定的,順序?yàn)閺淖笸?、從上往下,移?dòng)三次,依次會(huì)出現(xiàn)三個(gè)新的數(shù),再依次放到下一個(gè)矩陣中進(jìn)行計(jì)算。這是一種局部操作,原始數(shù)據(jù)(5*5 的輸入)經(jīng)過 9 次卷積,就能得到卷積后的結(jié)果。這個(gè)結(jié)果叫做卷積特征,它是一個(gè)新的 3*3 矩陣——這個(gè)矩陣又作為下一層操作的輸入,并進(jìn)行一些池化操作。

接下來我們看一下 CNN 的工作流程。先看一下幾個(gè)核心的概念:第一個(gè)就是我們剛才講的卷積操作;第二個(gè)就是池化操作,這個(gè)也是非常重要的;第三個(gè)就是它的激活函數(shù)、全連接層和目標(biāo)函數(shù)。

然后再看下方這張長圖。第一步,我們先把原始數(shù)據(jù)輸入給它(機(jī)器),然后以例如卷積層+池化層+激活函數(shù)的組合形式進(jìn)行卷積操作。之后,再同樣采用這種組合形式進(jìn)行下一組卷積操作……就這樣不停循環(huán),直到把所有特征都抽取出來。接著,抽取出來的所有特征與全連接層進(jìn)行對接,得出預(yù)測的值,并與目標(biāo)值進(jìn)行對比。最后,機(jī)器會(huì)對二者的差值進(jìn)行修復(fù),并重新訓(xùn)練。這是一個(gè)完整的工作流程。

 孫啟超:卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)

接下來我們再看一下卷積操作,它沒有參數(shù),我們只需要給它設(shè)置最大池化和平均池化。最大池化是指將覆蓋區(qū)域的最大值取出來——它的目的就是把最顯著的特征取出來,將一些不太明顯的特征忽略掉。

 孫啟超:卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)

卷積操作有三大特點(diǎn):

第一個(gè)是特征不變性。我們可以想象一張圖片卷積以后,圖片的右下角為一條直線,如果它在圖像的左上角識(shí)別的(圖形)卷積特征與直線的卷積特征一致,那左上角的這個(gè)圖形一定也是一條直線,因?yàn)樘卣饕粯?。這也是卷積神經(jīng)網(wǎng)絡(luò)里面的一個(gè)特性,即兩個(gè)特征的相對位置要比它們在圖片中的絕對位置要重要。

第二個(gè)特點(diǎn)就是特征降維。我們上面用的是 5*5 的矩陣,但實(shí)際上 10024*798 的圖片像素需要消耗很大的性能,而其中大部分都是沒必要的計(jì)算,最大池化就是將最顯著的特征取出來,舍棄那些不太明顯的特征,以節(jié)省一些計(jì)算資源。

第三個(gè)特點(diǎn)就是防止過擬合。因?yàn)槌槿〉亩际亲蠲黠@的特征,能夠防止過度擬合。

下面我們再看激活函數(shù)。以前從事過機(jī)器學(xué)習(xí)的同學(xué),可能會(huì)接觸到另一個(gè)激活函數(shù)——sigmoid 函數(shù),它是取值范圍為 0-1 的一條曲線。

而我們要講的這個(gè) ReLU 函數(shù),可表示為下圖的藍(lán)線。它實(shí)際上是一個(gè)分段函數(shù),當(dāng)你給這個(gè)函數(shù)的值小于 0 的時(shí)候,不管負(fù)多少,都會(huì)返回一個(gè) 0。當(dāng)你給它大于等于 0 的值的時(shí)候,也不管給出的是什么值,它都能返回本身(X),這其實(shí)是一個(gè)很簡單的函數(shù)。

 孫啟超:卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)

孫啟超:卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)

那激活函數(shù)到底有什么用?

打個(gè)比方,我手上拿著一根針,要去扎另一只手,剛開始隔得很遠(yuǎn),我不會(huì)感到疼,然后針慢慢接近我的另一只手,直到最后扎到了,我手上的這塊神經(jīng)就會(huì)告訴我的大腦,我的手扎到了——我就會(huì)感到疼,這就相當(dāng)于「激活」了。

針與我的另一只手的距離有一個(gè)閾值,當(dāng)這個(gè)距離小于了這個(gè)閾值,并最終完全貼近了,我的神經(jīng)就會(huì)馬上告訴我的大腦(疼),從而激活我的「疼感」——激活函數(shù)就是這個(gè)原理。機(jī)器平時(shí)訓(xùn)練出來的一些東西,如果沒有達(dá)到閾值,特征就不會(huì)被激活;而如果超過閾值,特征就會(huì)被激活并被輸出。

再往下,我們就以一個(gè)整體的視角來看一下卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)作。先看下面的這張圖,這是一個(gè)字母 A,首先要進(jìn)行卷積操作,之后再根據(jù)設(shè)置的卷積核和步長找到卷積核的特征,最后把所有激活的神經(jīng)元和最后的全連接層一一對應(yīng),通過矩陣乘法,看它們是否真正被激活。

 孫啟超:卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)

全連接層在整個(gè) CNN 中起到「分類器」的作用,該作用一般在最后實(shí)現(xiàn)。

然后是目標(biāo)函數(shù)。卷積神經(jīng)網(wǎng)絡(luò)中最多的回歸問題,用的都是歐式(Euclidean)距離,算法為:孫啟超:卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)我們一般采用最右邊的公式,該公式為求和公式,從 1 開始取到 n,對兩個(gè)數(shù)之間的差值進(jìn)行計(jì)算。

這個(gè)歐式距離有什么用呢?比如兩個(gè)目標(biāo),如果距離近,相似度就比較高。因此通過求歐式距離,我們可以判斷它們是否近似。

卷積神經(jīng)網(wǎng)絡(luò)的基本原理以及幾個(gè)核心概念都介紹完了。接下來我們進(jìn)入人臉識(shí)別的環(huán)節(jié),總體分為四步:第一步就是人臉邊框檢測,第二步就是圖像校準(zhǔn),第三步是圖像轉(zhuǎn)向量,第四步是向量對比。

第一步人臉邊框檢測。一張圖片上,有可能不止一張臉,而是有多張臉。不管有多少張臉,我們先把符合人臉特征的邊框找到,并且把邊框給截取出來。

怎么截?。慷ㄎ?。就是根據(jù)人臉特征來進(jìn)行定位,就像剛剛所說的,如果某個(gè)位置有一只眼睛,其對稱的地方也有一只眼睛,那(機(jī)器)就能找到眼部位置,進(jìn)而也能找到眼角部分。在人臉識(shí)別中,邊框特征范圍非常重要,因?yàn)闄C(jī)器依靠這些,就可以劃出完整的臉部位置。機(jī)器可以參照的主要特征之一是下巴,因?yàn)樽旖强梢詮堥_或者合閉,但是下巴一般不會(huì)有太大變動(dòng)。第二個(gè)是眉毛——找到眼睛了,眉毛就好找了。第三個(gè)是鼻梁、鼻尖,上、下嘴唇。

將這些特征都找到后,就要找到臉的邊框——可能為方臉、瓜子臉以及圓臉,機(jī)器會(huì)在臉部邊框上生成一些點(diǎn),之后使用圖形邊框(如圓邊框)去進(jìn)行對比,發(fā)現(xiàn)差了一點(diǎn),它就會(huì)不停調(diào)整系數(shù),直到完全符合。

孫啟超:卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì) 

但截取時(shí),臉附近需要留出一定距離,不能完全按照邊框去截取,例如,上圖中的頭發(fā)部分,(人)可能戴了帽子,因此機(jī)器就不能進(jìn)行完全截取,而是在周圍留出一定空間,再把圖片截取出來。如果一張臉有多個(gè)點(diǎn),那就截出多個(gè)人臉的邊框。

第二步就是校準(zhǔn)圖像。這個(gè)概念其實(shí)跟計(jì)算機(jī)處理數(shù)據(jù)的思路一致。不管你給機(jī)器圖片、語音、數(shù)字、字符串,或者是別的一些數(shù)據(jù),它都會(huì)將其轉(zhuǎn)化為計(jì)算機(jī)可以識(shí)別的數(shù)據(jù)。

人臉校準(zhǔn)也是,給機(jī)器的頭不管是歪頭、低頭還是仰著頭——位置都不正,那就先將臉邊框截出來,為每個(gè)點(diǎn)進(jìn)行定位(如下圖中的綠點(diǎn)),再根據(jù)點(diǎn)定位出一個(gè)坐標(biāo),跟真正擺正的臉的坐標(biāo)進(jìn)行對比,二者相差的角度,就是頭歪的角度,將圖像反向旋轉(zhuǎn)一下,圖像就變正了。

 孫啟超:卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)

這個(gè)效果也是非常有用的,因?yàn)樗梢詼p少不必要的誤差。機(jī)器學(xué)習(xí)也是這樣,當(dāng)你給它一堆沒有處理過的數(shù)據(jù)進(jìn)行訓(xùn)練的時(shí)候,它最終訓(xùn)練出來的結(jié)果不僅有可能是不好的,還有可能是相反的,為你做出的決定都是錯(cuò)誤的比如做商品智能推薦,如果輸入的數(shù)據(jù)沒有經(jīng)過處理,甚至所設(shè)置的維度都是沒有用的,機(jī)器可能會(huì)往錯(cuò)誤的方向去做推薦。

因此對數(shù)據(jù)的處理非常重要,要去掉不必要的誤差,并將所有的算法都放在真正有用的計(jì)算上面——這個(gè)思想很重要。

第三個(gè)是圖像轉(zhuǎn)向量。該圖像轉(zhuǎn)向量是怎么生成的?就是卷積、池化操作過后生成的圖像向量。向量既有大小又有方向,如果兩個(gè)向量間的夾角非常小,那這兩個(gè)向量就非常接近。

 孫啟超:卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)

通過比較向量間的夾角,可以判斷兩個(gè)目標(biāo)是否相似。例如,我們需要判斷計(jì)算機(jī)視覺相關(guān)的兩篇文章是否相似,首先我們要找到兩篇文章,將其中一篇文章的關(guān)鍵詞提取出來——一個(gè)關(guān)鍵詞就是一個(gè)向量,所有關(guān)鍵詞都找出來以后,計(jì)算一下向量的方向和大小。另外一篇也進(jìn)行同樣的操作,最后機(jī)器再對兩組向量進(jìn)行對比,如果幾乎重合,則說明兩篇文章的內(nèi)容非常相似。向量的作用,在機(jī)器學(xué)習(xí)中是非常重要的。

圖像轉(zhuǎn)向量之后,就需要把這個(gè)向量計(jì)算出來,然后和目標(biāo)函數(shù)的向量做對比,再用余項(xiàng)定理求出它們之間的夾角——前面兩篇相似文章的對比,就使用了這一定理。這一向量與目標(biāo)向量不一定要完全重合,夾角在很小的情況下,只要在閾值之內(nèi),就可以判斷二者相似,而閾值都是人為設(shè)置好的。

最后一步就是向量對比。相同的人臉,對應(yīng)的向量距離?。徊煌娜四?,向量距離自然就大。

向量計(jì)算中的有一個(gè)名詞——內(nèi)積,它是對應(yīng)元素乘積的求和,可以計(jì)算出剛才上面所提到的夾角。公式為:孫啟超:卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)。夾角越小,說明兩張人臉越相似。

以上就是本期嘉賓的全部分享內(nèi)容。更多公開課視頻請到雷鋒網(wǎng) AI 研習(xí)社社區(qū)觀看。關(guān)注微信公眾號(hào):AI 研習(xí)社(okweiwu),可獲取最新公開課直播時(shí)間預(yù)告。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

孫啟超:卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別技術(shù)中的應(yīng)用 | AI研習(xí)社第51期猿桌會(huì)

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說