4
本文作者: 宗仁 | 2016-05-04 17:59 | 專題:雷峰網(wǎng)公開課 |
嘉賓介紹: 趙京雷,閱面科技 ReadSense CEO。上海交通大學(xué)人工智能博士,前WiseNut研究中心算法負(fù)責(zé)人,前阿里北京算法研究中心負(fù)責(zé)人、高級算法專家。閱面科技專注于深度學(xué)習(xí)和計(jì)算機(jī)視覺,為消費(fèi)級智能機(jī)器提供最前沿的視覺算法和解決方案。其技術(shù)應(yīng)用領(lǐng)域包括服務(wù)機(jī)器人、智能家電、智能手機(jī)、無人機(jī)和其他消費(fèi)電子產(chǎn)品行業(yè)。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
隨著最近ADAS的火熱,不少人開始注意到人臉識別在實(shí)際應(yīng)用中有了更細(xì)分的場景——情緒識別,它可以在檢測到駕駛員的憤怒情緒后,命令駕駛員勒緊安全帶,提高制動器的反應(yīng)響應(yīng)性,也可以通過方向盤振動及警告聲,將情緒狀態(tài)告知駕駛員。從而讓我們遠(yuǎn)離80%由駕駛員精神不集中及憤怒情緒所導(dǎo)致的交通事故。(據(jù)美國國家公路交通安全管理局NHTSA介紹,美國的交通事故有80%是由駕駛員精神不集中及憤怒情緒所導(dǎo)致的。)
那這個(gè)關(guān)乎生命的檢測過程是如何實(shí)現(xiàn)的呢?本期硬創(chuàng)公開課邀請了人工智能算法專家趙京雷從人臉識別和情緒識別區(qū)別開始,循序漸進(jìn)到情緒識別原理,情緒識別的應(yīng)用場景,最后為我們揭秘這個(gè)過程是如何實(shí)現(xiàn)的。
首先我先說下情緒識別這個(gè)叫法。情緒識別廣義上可以通過表情、語音語調(diào)或者腦電捕捉等進(jìn)行。目前技術(shù)上最成熟、得到廣泛應(yīng)用的是表情識別技術(shù),也就是基于計(jì)算機(jī)視覺算法,識別人臉的表情動作和推斷喜怒哀樂等基本情緒。
接下來,我們講的“情緒識別”技術(shù),都是指的狹義上的“表情識別”技術(shù)。人臉識別大家都比較熟悉,表情識別可能接觸較少,兩者之間有很多的聯(lián)系,又有很大的差別。
首先,我們看兩者的不同。
第一,“人臉識別”是個(gè)去表情的過程。人臉識別中,對同一個(gè)人無論他做出什么表情,都要想辦法識別為同一個(gè)人;相反,“表情識別” 是一個(gè)強(qiáng)調(diào)表情變化的過程,對于同一個(gè)人,要把其不同的表情和情緒變化識別出來。
第二,人臉識別偏靜態(tài),表情識別偏動態(tài)。人臉識別的最典型問題是人臉驗(yàn)證 face verification問題,即任給兩張照片中的人臉,判定是不是同一個(gè)人,是個(gè)靜態(tài)的判定問題。表情識別的基本問題,是給一個(gè)人臉連續(xù)動作幀,判斷這個(gè)時(shí)間段該人臉的基本表情變化,是個(gè)動態(tài)的判定問題。
上面說的是不同,當(dāng)然,另一方面,兩者都是對面部進(jìn)行視覺處理,又有很強(qiáng)的聯(lián)系。兩者的聯(lián)系有以下方面。
第一,二者都依賴于一些人臉的基礎(chǔ)技術(shù),比如“人臉檢測” 和“人臉特征點(diǎn)檢測”。這兩塊很多朋友應(yīng)該都比較熟悉,人臉檢測是從照片或者視頻幀中把人臉出現(xiàn)的區(qū)域檢測出來。
如圖,人臉特征點(diǎn)檢測指的是把人臉的一些預(yù)先定義的特征點(diǎn)識別和標(biāo)注出來。所以一些人臉方面的基礎(chǔ)技術(shù),是兩者的共同基礎(chǔ)。
第二,人臉識別和表情識別,在識別的精度上,都會受光照、人臉姿態(tài)和遮擋的影響。這方面,人類好像感覺沒啥問題。但這些客觀條件對計(jì)算機(jī)識別算法影響很大,比如極端的側(cè)臉和仰頭等姿態(tài)會嚴(yán)重影響人臉檢測的精度,而如果在照片中沒有辦法檢測到人臉,就不能做人臉識別和表情識別了。
另外,從總體的業(yè)界發(fā)展來看,從識別的難度上來講,相對于人臉識別,表情識別在技術(shù)難度的挑戰(zhàn)要更大一些,這和數(shù)據(jù)以及動態(tài)不確定性等因素有關(guān)。
目前表情識別主要識別的是人類的基本情緒。根據(jù)心理學(xué)的基本情緒理論,人類的基本情緒包括:喜悅、悲傷、憤怒、討厭、害怕、驚奇和中性。
著名心理學(xué)家Paul Ekman教授(美劇lie to me的角色原型)提出了一套面部動作編碼理論(FACS),把人類的表情分解為多個(gè)面部動作單元(Action Units)。這些面部單元單獨(dú)并不能夠代表任何的情感,但是它們的組合理論上可以表達(dá)人類的任何面部表情。
這一理論在心理學(xué)多年的研究中得到了驗(yàn)證,并在過去成功應(yīng)用于動畫角色的表情建模中。比如阿凡達(dá)之類電影中的動畫角色建模時(shí)。動畫師不是對每一個(gè)動畫幀的表情都進(jìn)行單獨(dú)刻畫,而是首先對一些代表局部表情動作的Blend Shape進(jìn)行建模。
比如代表眉毛升起或者嘴角上揚(yáng)的 Blend Shape。這些Blend Shape就是某種意義上的面部表情單元。在這基礎(chǔ)上,每一幅動畫幀的豐富表情變化都可以通過這些基本幀加權(quán)來得到。
近些年,隨著機(jī)器學(xué)習(xí)的發(fā)展,表情單元的編碼系統(tǒng)也被成功的應(yīng)用于表情識別。這個(gè)自動表情識別過程是這樣的。首先,機(jī)器學(xué)習(xí)算法會從很多的表情照片中習(xí)得特定的表情單元是否出現(xiàn)。不同的表情單元組合代表了不同的表情。
比如表情單元12代表嘴角上揚(yáng),表情單元6代表面頰上升,兩者的結(jié)合在一頂程度上表示了人類喜悅的情緒。
基于表情單元進(jìn)行表情識別,理論上就可以捕捉人類上千種的不同的情緒。進(jìn)一步可以做到表情映射和遷移,即把人的表情變化實(shí)時(shí)遷移另外一個(gè)人物模型上面去。比如這種
上面是對表情識別原理的基本解釋,下面回答“假笑”是否可以識別。
我們看美劇《Lie to me》,經(jīng)常看到Ekman教授通過識別人的表情來判斷一個(gè)人是不是在說謊。在心理學(xué)理論上,真笑和假笑在一定程度上可以通過動作所涉及到動作單元的強(qiáng)度和動態(tài)過程來區(qū)分。
比如上面講的,如果只是出現(xiàn)了動作單元12,沒有出現(xiàn)動作單元6,再加上持續(xù)時(shí)間,那么是有可能判斷是否為假笑的。
但關(guān)于這方面,我們將其稱為微表情研究領(lǐng)域。
雖然學(xué)術(shù)屆有些研究,但在應(yīng)用中,目前這種“微表情”的識別還沒有較成熟的商用系統(tǒng),實(shí)用性不強(qiáng)。所以,計(jì)算機(jī)領(lǐng)域的“表情識別”主要還是指對人類基本情緒的識別,而不是微表情識別。
讓計(jì)算機(jī)或者人工智能技術(shù)通過表情識別去做《Lie to me》中的微表情測謊,目前是不太現(xiàn)實(shí)的,這可能會讓大家失望哈。
主要的原因,不是因?yàn)楝F(xiàn)在的計(jì)算技術(shù)達(dá)不到,而是因?yàn)檫@方面的心理學(xué)理論還缺乏對“微表情”的清晰定義,從而構(gòu)建相關(guān)數(shù)據(jù)來指導(dǎo)計(jì)算機(jī)認(rèn)知就非常困難。
(目前情緒識別的應(yīng)用場景主要在哪幾個(gè)領(lǐng)域呢?你認(rèn)為哪幾個(gè)領(lǐng)域市場化的速度會比較快?)
嗯,這個(gè)是人工智能領(lǐng)域的從業(yè)者比較關(guān)心的問題。情緒識別的應(yīng)用場景,典型的有廣告效果評估、產(chǎn)品評測、視頻分析、醫(yī)療康復(fù)、安全駕駛和情感機(jī)器人等。
個(gè)人認(rèn)為“情緒識別” 在人機(jī)交互領(lǐng)域會發(fā)展的比較快。包括安全駕駛、情感機(jī)器人。讓機(jī)器更好的理解人、更加智能和人性化的為人類服務(wù)是近期人工智能革命的根本。機(jī)器慢慢的習(xí)得足夠的情感認(rèn)知能力以后,就可以在人機(jī)交互中對用戶體驗(yàn)進(jìn)行一系列的升級。
(最近將情緒識別技術(shù)應(yīng)用于ADAS的概念很火,從技術(shù)角度來說,這個(gè)過程具體是如何實(shí)現(xiàn)的呢?)
關(guān)于ADAS的應(yīng)用。比較典型的場景有疲勞駕駛和路怒駕駛的檢測和預(yù)警。發(fā)現(xiàn)駕駛員有疲勞駕駛和路怒駕駛的狀況后,可以觸發(fā)干預(yù)。從技術(shù)角度,比如疲勞駕駛可以通過若干動作單元以及面部特征的組合來識別。比如閉眼超時(shí)、眉頭下垂、睜眼被動等。
這個(gè)里面,比較大的技術(shù)挑戰(zhàn)在于,要考慮對人臉的捕捉角度以及計(jì)算效率。
這種情況下,云服務(wù)不是好的選擇。需要讓計(jì)算機(jī)視覺的識別算法能夠高精度、高效率的運(yùn)算在本地的adas嵌入式系統(tǒng)上。
(熱心觀眾:想問一下本地做識別往往受到數(shù)據(jù)庫和算法的限制,為什么說云服務(wù)不是一個(gè)很好的選擇的?)
主要看應(yīng)用場景,在應(yīng)用于諸如機(jī)器人和ADAS等系統(tǒng)中,系統(tǒng)需要實(shí)時(shí)計(jì)算,并且不能受到網(wǎng)絡(luò)連接的影響,這個(gè)時(shí)候從產(chǎn)品用戶體驗(yàn)和安全等考慮,云服務(wù)是不太現(xiàn)實(shí)的。需要本地的潛入sdk或者硬件乃至芯片方案。
(熱心觀眾:它對本地ADAS的系統(tǒng)有什么樣的要求?需要什么樣的硬件配置?)
目前,舉例來講,閱面科技這邊,基于深度學(xué)習(xí)的表情識別已經(jīng)可以做到在小米3之類的手機(jī)上,1.6GCPU,不依賴于gpu, 每秒鐘40幀以上。所以理論上,本地ADAS如果具有類似于一個(gè)普通智能手機(jī)的運(yùn)算能力都可以跑。在一般的實(shí)際情況中,ADAS系統(tǒng)還會結(jié)合行人檢測等算法,所以一般配置會高些。當(dāng)然,如果有g(shù)pu,也可以進(jìn)一步提速。
目前我們閱面科技在這方面也做了很多的工作。讓深度學(xué)習(xí)在嵌入式系統(tǒng)中高精度和高效的運(yùn)轉(zhuǎn)會是接下來一些年計(jì)算機(jī)視覺的一個(gè)主題之一。
(如果情緒識別普及,不可避免地會觸犯到每個(gè)人的隱私。如何在隱私保護(hù)和商業(yè)應(yīng)用之間找到平衡。?
大家都知道,深度學(xué)習(xí)是和大數(shù)據(jù)緊密綁定的。只有有了數(shù)據(jù),才能利用機(jī)器學(xué)習(xí)的能力去從數(shù)據(jù)中自動習(xí)得知識
從這種意義上講,情緒識別技術(shù)和其他計(jì)算機(jī)視覺技術(shù)或者說更廣義的人工智能技術(shù)都依賴于數(shù)據(jù)的采集和處理。當(dāng)然,只要有數(shù)據(jù)采集,就有可能觸犯個(gè)人的隱私。
數(shù)據(jù)的隱私問題可以說和互聯(lián)網(wǎng)相伴而生。我們每天瀏覽網(wǎng)頁、搜索信息和在線購物過程中,我們的偏好數(shù)據(jù)都在網(wǎng)絡(luò)中曝光。而也正是這些數(shù)據(jù),讓我們更加準(zhǔn)確搜索到信息,更加快速的發(fā)現(xiàn)自己喜歡的商品
如何最大限度的保護(hù)個(gè)人的隱私,同時(shí)合理的利用個(gè)人數(shù)據(jù),是個(gè)兩難問題。 我們目前在這方面,可以讓我們的客戶選擇只是回傳服務(wù)端關(guān)鍵點(diǎn)等數(shù)據(jù),而不是原始圖像,是一種折中的方案吧。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。