4
本文作者: 宗仁 | 2016-05-04 17:59 | 專題:雷峰網(wǎng)公開課 |
嘉賓介紹: 趙京雷,閱面科技 ReadSense CEO。上海交通大學人工智能博士,前WiseNut研究中心算法負責人,前阿里北京算法研究中心負責人、高級算法專家。閱面科技專注于深度學習和計算機視覺,為消費級智能機器提供最前沿的視覺算法和解決方案。其技術應用領域包括服務機器人、智能家電、智能手機、無人機和其他消費電子產(chǎn)品行業(yè)。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
隨著最近ADAS的火熱,不少人開始注意到人臉識別在實際應用中有了更細分的場景——情緒識別,它可以在檢測到駕駛員的憤怒情緒后,命令駕駛員勒緊安全帶,提高制動器的反應響應性,也可以通過方向盤振動及警告聲,將情緒狀態(tài)告知駕駛員。從而讓我們遠離80%由駕駛員精神不集中及憤怒情緒所導致的交通事故。(據(jù)美國國家公路交通安全管理局NHTSA介紹,美國的交通事故有80%是由駕駛員精神不集中及憤怒情緒所導致的。)
那這個關乎生命的檢測過程是如何實現(xiàn)的呢?本期硬創(chuàng)公開課邀請了人工智能算法專家趙京雷從人臉識別和情緒識別區(qū)別開始,循序漸進到情緒識別原理,情緒識別的應用場景,最后為我們揭秘這個過程是如何實現(xiàn)的。
首先我先說下情緒識別這個叫法。情緒識別廣義上可以通過表情、語音語調(diào)或者腦電捕捉等進行。目前技術上最成熟、得到廣泛應用的是表情識別技術,也就是基于計算機視覺算法,識別人臉的表情動作和推斷喜怒哀樂等基本情緒。
接下來,我們講的“情緒識別”技術,都是指的狹義上的“表情識別”技術。人臉識別大家都比較熟悉,表情識別可能接觸較少,兩者之間有很多的聯(lián)系,又有很大的差別。
首先,我們看兩者的不同。
第一,“人臉識別”是個去表情的過程。人臉識別中,對同一個人無論他做出什么表情,都要想辦法識別為同一個人;相反,“表情識別” 是一個強調(diào)表情變化的過程,對于同一個人,要把其不同的表情和情緒變化識別出來。
第二,人臉識別偏靜態(tài),表情識別偏動態(tài)。人臉識別的最典型問題是人臉驗證 face verification問題,即任給兩張照片中的人臉,判定是不是同一個人,是個靜態(tài)的判定問題。表情識別的基本問題,是給一個人臉連續(xù)動作幀,判斷這個時間段該人臉的基本表情變化,是個動態(tài)的判定問題。
上面說的是不同,當然,另一方面,兩者都是對面部進行視覺處理,又有很強的聯(lián)系。兩者的聯(lián)系有以下方面。
第一,二者都依賴于一些人臉的基礎技術,比如“人臉檢測” 和“人臉特征點檢測”。這兩塊很多朋友應該都比較熟悉,人臉檢測是從照片或者視頻幀中把人臉出現(xiàn)的區(qū)域檢測出來。
如圖,人臉特征點檢測指的是把人臉的一些預先定義的特征點識別和標注出來。所以一些人臉方面的基礎技術,是兩者的共同基礎。
第二,人臉識別和表情識別,在識別的精度上,都會受光照、人臉姿態(tài)和遮擋的影響。這方面,人類好像感覺沒啥問題。但這些客觀條件對計算機識別算法影響很大,比如極端的側(cè)臉和仰頭等姿態(tài)會嚴重影響人臉檢測的精度,而如果在照片中沒有辦法檢測到人臉,就不能做人臉識別和表情識別了。
另外,從總體的業(yè)界發(fā)展來看,從識別的難度上來講,相對于人臉識別,表情識別在技術難度的挑戰(zhàn)要更大一些,這和數(shù)據(jù)以及動態(tài)不確定性等因素有關。
目前表情識別主要識別的是人類的基本情緒。根據(jù)心理學的基本情緒理論,人類的基本情緒包括:喜悅、悲傷、憤怒、討厭、害怕、驚奇和中性。
著名心理學家Paul Ekman教授(美劇lie to me的角色原型)提出了一套面部動作編碼理論(FACS),把人類的表情分解為多個面部動作單元(Action Units)。這些面部單元單獨并不能夠代表任何的情感,但是它們的組合理論上可以表達人類的任何面部表情。
這一理論在心理學多年的研究中得到了驗證,并在過去成功應用于動畫角色的表情建模中。比如阿凡達之類電影中的動畫角色建模時。動畫師不是對每一個動畫幀的表情都進行單獨刻畫,而是首先對一些代表局部表情動作的Blend Shape進行建模。
比如代表眉毛升起或者嘴角上揚的 Blend Shape。這些Blend Shape就是某種意義上的面部表情單元。在這基礎上,每一幅動畫幀的豐富表情變化都可以通過這些基本幀加權來得到。
近些年,隨著機器學習的發(fā)展,表情單元的編碼系統(tǒng)也被成功的應用于表情識別。這個自動表情識別過程是這樣的。首先,機器學習算法會從很多的表情照片中習得特定的表情單元是否出現(xiàn)。不同的表情單元組合代表了不同的表情。
比如表情單元12代表嘴角上揚,表情單元6代表面頰上升,兩者的結(jié)合在一頂程度上表示了人類喜悅的情緒。
基于表情單元進行表情識別,理論上就可以捕捉人類上千種的不同的情緒。進一步可以做到表情映射和遷移,即把人的表情變化實時遷移另外一個人物模型上面去。比如這種
上面是對表情識別原理的基本解釋,下面回答“假笑”是否可以識別。
我們看美劇《Lie to me》,經(jīng)??吹紼kman教授通過識別人的表情來判斷一個人是不是在說謊。在心理學理論上,真笑和假笑在一定程度上可以通過動作所涉及到動作單元的強度和動態(tài)過程來區(qū)分。
比如上面講的,如果只是出現(xiàn)了動作單元12,沒有出現(xiàn)動作單元6,再加上持續(xù)時間,那么是有可能判斷是否為假笑的。
但關于這方面,我們將其稱為微表情研究領域。
雖然學術屆有些研究,但在應用中,目前這種“微表情”的識別還沒有較成熟的商用系統(tǒng),實用性不強。所以,計算機領域的“表情識別”主要還是指對人類基本情緒的識別,而不是微表情識別。
讓計算機或者人工智能技術通過表情識別去做《Lie to me》中的微表情測謊,目前是不太現(xiàn)實的,這可能會讓大家失望哈。
主要的原因,不是因為現(xiàn)在的計算技術達不到,而是因為這方面的心理學理論還缺乏對“微表情”的清晰定義,從而構建相關數(shù)據(jù)來指導計算機認知就非常困難。
(目前情緒識別的應用場景主要在哪幾個領域呢?你認為哪幾個領域市場化的速度會比較快?)
嗯,這個是人工智能領域的從業(yè)者比較關心的問題。情緒識別的應用場景,典型的有廣告效果評估、產(chǎn)品評測、視頻分析、醫(yī)療康復、安全駕駛和情感機器人等。
個人認為“情緒識別” 在人機交互領域會發(fā)展的比較快。包括安全駕駛、情感機器人。讓機器更好的理解人、更加智能和人性化的為人類服務是近期人工智能革命的根本。機器慢慢的習得足夠的情感認知能力以后,就可以在人機交互中對用戶體驗進行一系列的升級。
(最近將情緒識別技術應用于ADAS的概念很火,從技術角度來說,這個過程具體是如何實現(xiàn)的呢?)
關于ADAS的應用。比較典型的場景有疲勞駕駛和路怒駕駛的檢測和預警。發(fā)現(xiàn)駕駛員有疲勞駕駛和路怒駕駛的狀況后,可以觸發(fā)干預。從技術角度,比如疲勞駕駛可以通過若干動作單元以及面部特征的組合來識別。比如閉眼超時、眉頭下垂、睜眼被動等。
這個里面,比較大的技術挑戰(zhàn)在于,要考慮對人臉的捕捉角度以及計算效率。
這種情況下,云服務不是好的選擇。需要讓計算機視覺的識別算法能夠高精度、高效率的運算在本地的adas嵌入式系統(tǒng)上。
(熱心觀眾:想問一下本地做識別往往受到數(shù)據(jù)庫和算法的限制,為什么說云服務不是一個很好的選擇的?)
主要看應用場景,在應用于諸如機器人和ADAS等系統(tǒng)中,系統(tǒng)需要實時計算,并且不能受到網(wǎng)絡連接的影響,這個時候從產(chǎn)品用戶體驗和安全等考慮,云服務是不太現(xiàn)實的。需要本地的潛入sdk或者硬件乃至芯片方案。
(熱心觀眾:它對本地ADAS的系統(tǒng)有什么樣的要求?需要什么樣的硬件配置?)
目前,舉例來講,閱面科技這邊,基于深度學習的表情識別已經(jīng)可以做到在小米3之類的手機上,1.6GCPU,不依賴于gpu, 每秒鐘40幀以上。所以理論上,本地ADAS如果具有類似于一個普通智能手機的運算能力都可以跑。在一般的實際情況中,ADAS系統(tǒng)還會結(jié)合行人檢測等算法,所以一般配置會高些。當然,如果有gpu,也可以進一步提速。
目前我們閱面科技在這方面也做了很多的工作。讓深度學習在嵌入式系統(tǒng)中高精度和高效的運轉(zhuǎn)會是接下來一些年計算機視覺的一個主題之一。
(如果情緒識別普及,不可避免地會觸犯到每個人的隱私。如何在隱私保護和商業(yè)應用之間找到平衡。?
大家都知道,深度學習是和大數(shù)據(jù)緊密綁定的。只有有了數(shù)據(jù),才能利用機器學習的能力去從數(shù)據(jù)中自動習得知識
從這種意義上講,情緒識別技術和其他計算機視覺技術或者說更廣義的人工智能技術都依賴于數(shù)據(jù)的采集和處理。當然,只要有數(shù)據(jù)采集,就有可能觸犯個人的隱私。
數(shù)據(jù)的隱私問題可以說和互聯(lián)網(wǎng)相伴而生。我們每天瀏覽網(wǎng)頁、搜索信息和在線購物過程中,我們的偏好數(shù)據(jù)都在網(wǎng)絡中曝光。而也正是這些數(shù)據(jù),讓我們更加準確搜索到信息,更加快速的發(fā)現(xiàn)自己喜歡的商品
如何最大限度的保護個人的隱私,同時合理的利用個人數(shù)據(jù),是個兩難問題。 我們目前在這方面,可以讓我們的客戶選擇只是回傳服務端關鍵點等數(shù)據(jù),而不是原始圖像,是一種折中的方案吧。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。