0
本文作者: 程弢 | 2017-05-04 18:44 | 專題:雷峰網(wǎng)公開課 |
你做一個(gè)表情,或者說一句話,機(jī)器就可以準(zhǔn)確地識(shí)別你的情緒。
沒錯(cuò),當(dāng)你在渴望get“讀心術(shù)”技能的時(shí)候,機(jī)器已經(jīng)能完美的實(shí)現(xiàn)了。目前,國(guó)內(nèi)的翼開科技、以色列公司Beyond Verbal以及美國(guó)的Affectiva和Emotient都在做這情感計(jì)算解決方案。其應(yīng)用場(chǎng)景也非常廣泛:飛行員情緒監(jiān)控、呼叫中心情緒考核、學(xué)生情緒監(jiān)測(cè)甚至是智能硬件都可以使用這類算法,而且精度可以達(dá)到90%以上。
簡(jiǎn)單來說,機(jī)器是根據(jù)人的心率、呼吸、語(yǔ)音甚至是面部表情等特征,再通過特定的模型算法就能解讀出人的情緒狀態(tài),從技術(shù)角度看,數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等都是情感計(jì)算的基礎(chǔ)。
那么完成情感判斷需要哪些模塊?以及具體實(shí)現(xiàn)原理是怎樣的呢?本期硬創(chuàng)公開課,雷鋒網(wǎng)邀請(qǐng)到了翼開科技創(chuàng)始人魏清晨為大家分享情感計(jì)算的技術(shù)問題以及應(yīng)用場(chǎng)景。
魏清晨,翼開科技EmoKit創(chuàng)始人,目前全面負(fù)責(zé)EmoKit公司的戰(zhàn)略規(guī)劃、運(yùn)營(yíng)管理、團(tuán)隊(duì)建設(shè),團(tuán)隊(duì)里兩名核心科學(xué)家均為海歸博士后。
EmoKit,即海妖情感計(jì)算引擎,包括情緒的識(shí)別、優(yōu)化、表達(dá),是人工智能的核心基礎(chǔ)設(shè)施之一。自2015年創(chuàng)立半年獲得600萬(wàn)投資,如今已經(jīng)超2000萬(wàn)用戶,今年獲得近2000萬(wàn)元訂單。Emokit先后獲得美國(guó)麻省理工學(xué)院舉辦的“MIT-CHIEF全球創(chuàng)業(yè)大賽”中國(guó)區(qū)第一名,芬蘭“Slush World 2014全球創(chuàng)業(yè)大賽”名列第一,工信部和全國(guó)科協(xié)2015全國(guó)移動(dòng)互聯(lián)網(wǎng)創(chuàng)業(yè)大賽“特等獎(jiǎng)”,清華大學(xué)H+Lab“幸??萍既蛱魬?zhàn)賽”冠軍。
以下內(nèi)容整理自本期公開課,雷鋒網(wǎng)做了不改變?cè)敢獾木庉嫞?/em>
就我們現(xiàn)在在做的事情來看,我們把情感計(jì)算分成3個(gè)模塊:第一部分是情緒識(shí)別,通過語(yǔ)音、心率、表情和寫字過程中壓感和速率的變化來判斷用戶的情緒。
情緒的類型一共有24種,積極和消極各12種。在情感計(jì)算的發(fā)展過程中,算法也經(jīng)歷了六次升級(jí)。第一代我們通過量表測(cè)評(píng),第二代加入了心率和呼吸,第三代針對(duì)個(gè)體增加了縱向的學(xué)習(xí)和訓(xùn)練,第四代我們對(duì)情緒做了一個(gè)細(xì)化(從原來的5中情緒增加到了24種),第五代加入了表情和筆記的情緒識(shí)別,第六代主要做兩塊工作:一個(gè)是判斷了用戶的情緒之后,基于單一的事件背景進(jìn)一步識(shí)別用戶的意圖;第二個(gè)工作就是把語(yǔ)音、表情和視覺的行為、文本做一個(gè)多模態(tài)的擬合。
情緒識(shí)別只是第一步,未來需要解決的問題是調(diào)整用戶的情緒。從上圖可以看出,通過語(yǔ)音、心率表情和筆記這些信息判斷用戶的情緒之后,還可以通過推薦內(nèi)容來緩解用戶的情緒。
例如,翼開科技2011年上線的一款應(yīng)用就會(huì)給用戶推薦詩(shī)歌、書法、音樂等等,后來在音樂內(nèi)容上做得更加深入,我們通過分析音樂的音高、節(jié)奏、旋律和音強(qiáng),3分鐘的歌曲會(huì)采集6000個(gè)數(shù)據(jù)點(diǎn)分,根據(jù)這些信息來給歌曲打情緒標(biāo)簽。現(xiàn)在已經(jīng)標(biāo)注過得音樂數(shù)量超過了160萬(wàn)首,另外,像圖片、視頻都是可以通過用戶的情緒來做內(nèi)容匹配,最終達(dá)到緩解情緒的目的。
情緒表達(dá)是利用情感合成技術(shù),讓一段語(yǔ)音、表情或者肢體動(dòng)作模擬人的情感,讓機(jī)器帶有情感的表達(dá)出來,這樣就可以提升人和機(jī)器的交互體驗(yàn)。
舉個(gè)例子,如果送餐機(jī)器人只會(huì)識(shí)別菜和客人,這是基礎(chǔ)服務(wù);但要增加機(jī)器人的附加價(jià)值,需要送餐機(jī)器人讀懂客人的情緒,客人情緒低落的時(shí)候,送餐機(jī)器人會(huì)以一種比較舒緩的情緒對(duì)話。
目前翼開科技和中科院心理所、清華大學(xué)心理系和美國(guó)卡內(nèi)基梅隆大學(xué)語(yǔ)言技術(shù)研究所。
這實(shí)際上是兩個(gè)流派:前面的兩個(gè)機(jī)構(gòu)代表的是基于理論研究的專家模型,卡內(nèi)基梅隆大學(xué)是基于神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)的模型。
目前翼開科技在做的有一部分是基于深度學(xué)習(xí)的,也有一部分是基于專家模型。我們認(rèn)為這兩類的瓶頸都逐漸顯現(xiàn)出來了,需要相互融合。
為什么會(huì)用深度學(xué)習(xí)來做表情的識(shí)別?
現(xiàn)在做深度學(xué)習(xí)的瓶頸在于大量標(biāo)注過的數(shù)據(jù),不過表情標(biāo)注會(huì)相對(duì)比較容易,一張人臉只判斷喜怒哀樂,一般情況下1秒就可以識(shí)別出一個(gè)人的表情,如果有幾十萬(wàn)張表情圖片,用眾包的方式所需的時(shí)間和費(fèi)用都不會(huì)很大。
不過有一些數(shù)據(jù)不太方便做標(biāo)注,例如語(yǔ)音。
三分鐘的語(yǔ)音,我們必須聽完三分鐘才能做情緒的標(biāo)注,標(biāo)注的工作量在無形中增加了上百倍,而且相對(duì)表情而言,語(yǔ)音的情緒表達(dá)更加隱性,所以也很難用深度學(xué)習(xí)的方式來實(shí)現(xiàn)語(yǔ)音的情緒識(shí)別。
還有一種是普通人很難進(jìn)行標(biāo)注的,如心率。即使你是一個(gè)專業(yè)的醫(yī)生,看完一段心率圖也無法確定測(cè)試對(duì)象心率變化的原因(開心、焦慮、憤怒)。
所以,現(xiàn)在表情是基于深度學(xué)習(xí)的,語(yǔ)音和心率基于專家模型。
不過剛才也講到,這兩類在發(fā)展到一定程度時(shí)候,會(huì)存在瓶頸。例表情面臨的瓶頸有兩個(gè):1.普通人標(biāo)注人臉表情的顆粒度一般是6-8種情緒,很難識(shí)別更細(xì)的(24種甚至是一百多種);2.即便完成了情緒類型的標(biāo)準(zhǔn),但你無法確認(rèn)情緒的真?zhèn)巍?/p>
在專家模型中,則有比較成熟的模型來判斷情緒的真?zhèn)?,因此,我們可以在深度學(xué)習(xí)的基礎(chǔ)上,再疊加專家模型來突破這樣的瓶頸。
心率和語(yǔ)音基于專家模型也存在瓶頸,現(xiàn)在的解決辦法是建立一個(gè)個(gè)體用戶強(qiáng)化訓(xùn)練的模型(一個(gè)用戶測(cè)得越多,模型會(huì)越貼合被測(cè)用戶的特征);另外,我們還可以建立一個(gè)半監(jiān)督學(xué)習(xí)算法來得到實(shí)時(shí)的反饋。
因此,表面上有兩條技術(shù)路線,但實(shí)際上這二者是相互融合的。
不同的行業(yè)對(duì)于情感計(jì)算的理解是不一樣的。羅莎琳德·皮卡德是麻省理工學(xué)院MediaLab的老師,她也是情感計(jì)算學(xué)科的奠基人。
在她《情感計(jì)算》這本書中的序言中有這么一句話:如果要讓計(jì)算機(jī)實(shí)現(xiàn)真正的智能并適應(yīng)我們,跟我們產(chǎn)生自然而然的人機(jī)交互,那么,它就需要具備情緒識(shí)別和表達(dá)能力,就需要具備情感。
谷歌云計(jì)算首席科學(xué)家李飛飛對(duì)情感計(jì)算是這么理解的:現(xiàn)在我們的AI都是用邏輯的方法來判斷情感。邏輯代表IQ,而情感代表EQ。未來,從情緒到情感,是人工智能未來前進(jìn)的方向。
我們認(rèn)為可以從三個(gè)角度來理解情感計(jì)算:
第一,情感計(jì)算可以幫助AI來識(shí)別用戶的情緒;
第二,情感計(jì)算可以幫助AI模擬人類的情緒,以改善人機(jī)情感交互;
第三,情感計(jì)算可以讓AI產(chǎn)生自我約束能力(同理心)。
目前翼開科技和環(huán)信展開了合作,環(huán)信有IM溝通工具,這里面包含了語(yǔ)音、表情和文本等信息,我們對(duì)其開放了綁定的SDK,可以通過語(yǔ)音等信息來判斷用戶的情緒。
另外,我們現(xiàn)在還和科大訊飛有合作,合作的方式主要是相互交叉授權(quán),通過綁定版的SDK,科大訊飛來識(shí)別語(yǔ)音,翼開科技來判斷情緒;現(xiàn)在還在做視覺的應(yīng)用,科大訊飛識(shí)別人的身份,翼開科技來識(shí)別其情緒。
另外,以下這些都是情感計(jì)算可能落地的應(yīng)用場(chǎng)景:
1.基于AI多模態(tài)識(shí)別和生物反饋技術(shù)的精神壓力智能篩查裝備
2.基于AI多模態(tài)識(shí)別和NLP技術(shù)的公安審訊實(shí)時(shí)分析預(yù)警裝備
3.基于AI多模態(tài)識(shí)別和車載控制技術(shù)的司機(jī)情緒和疲勞度監(jiān)測(cè)敢于系統(tǒng)
4.基于AI多模態(tài)識(shí)別和智能控制技術(shù)的情感聯(lián)動(dòng)的無操控智能家居系統(tǒng)
5.基于AI多模態(tài)識(shí)別和動(dòng)機(jī)分析技術(shù)的金融信貸面簽風(fēng)險(xiǎn)評(píng)估機(jī)器人
6.基于語(yǔ)音聲紋和NLP技術(shù)的呼叫中心坐席情緒監(jiān)控和滿意度分析方案
7.基于情感大數(shù)據(jù)時(shí)序遞歸分析技術(shù)的幼兒性格發(fā)育傾向性預(yù)測(cè)軟件
8.基于情感大數(shù)據(jù)時(shí)序遞歸分析技術(shù)的承認(rèn)免疫系統(tǒng)損傷預(yù)警軟件
當(dāng)然,對(duì)于創(chuàng)業(yè)公司而言,要做出上述所有場(chǎng)景來推向市場(chǎng),雷鋒網(wǎng)了解到,翼開科技已經(jīng)在教育、金融等領(lǐng)域做出了商業(yè)化的嘗試。
Q:語(yǔ)音、圖像這些不同的模塊怎么在系統(tǒng)里面協(xié)調(diào)工作?
A:其實(shí)就是一個(gè)多模態(tài)的算法,有兩種實(shí)現(xiàn)的方法:本身數(shù)據(jù)就是多模態(tài)的數(shù)據(jù),然后做標(biāo)注,做完玩標(biāo)注就可以通過深度學(xué)習(xí)的方式來做訓(xùn)練;第二種,通過同一個(gè)sensor采集數(shù)據(jù)后再做多模態(tài),例如通過麥克風(fēng)可以采集到用戶的語(yǔ)音、聲紋特征,進(jìn)一步分析文本,來做多模態(tài)。
Q:情感數(shù)據(jù)對(duì)準(zhǔn)確率還是有很大的影響,這些數(shù)據(jù)是怎么搜集的?
A:在我們和卡內(nèi)基梅隆大學(xué)情感計(jì)算專家交流的過程中,我們得到一個(gè)觀點(diǎn),通過單種信息來判斷情緒,準(zhǔn)確率是有局限性的;另外,越早做多模態(tài)越好,越多的模態(tài)擬合越好。
我們把反應(yīng)情緒的信號(hào)分為兩類,一類是淺層信號(hào),如語(yǔ)音、表情;還有一類是深層信號(hào),完全受交感神經(jīng)和副交感神經(jīng)的影響,主觀意識(shí)很難控制。
淺層信號(hào)更容易采集,但權(quán)重不高;深層信號(hào)權(quán)重高,但采集難度比較大。兩種信號(hào)做綜合的多模態(tài)分析可以提升情感判斷的準(zhǔn)確度。
Q:目前的準(zhǔn)確率有多高?多模態(tài)的模型有相關(guān)的paper嗎?
A:語(yǔ)音和心率是基于專家模型的,這個(gè)精度會(huì)低一點(diǎn),在85%左右,表情在90%左右(但是表情只有7中情緒)。
Q:情感識(shí)別目前有判斷準(zhǔn)確率的行業(yè)標(biāo)準(zhǔn)嗎?沒有標(biāo)準(zhǔn)的話,從哪些維度來提升識(shí)別率?
A:現(xiàn)在判斷情緒標(biāo)準(zhǔn)的類型比較多,常見的如果用深度學(xué)習(xí)方法實(shí)現(xiàn)的模型,再重新另一套標(biāo)注的數(shù)據(jù)來跑一下這個(gè)模型,來判斷它的精度;另外,可以根據(jù)用戶反饋來判斷,把系統(tǒng)測(cè)試的結(jié)果反饋給用戶,讓用戶來給出最終驗(yàn)證。
如何優(yōu)化?可以通過半監(jiān)督學(xué)習(xí)的方式,來進(jìn)行自我訓(xùn)練自我校正。
Q:有采用腦電波的模態(tài)數(shù)據(jù)嗎?
A:國(guó)外做這一塊的研究有很多,我們現(xiàn)在認(rèn)為腦電sensor還不是消費(fèi)終端的標(biāo)配,采集腦電要專門的sensor,目前只用在特殊的行業(yè),還沒有做通用算法的開放。
PS:翼開科技正在招聘:機(jī)器學(xué)習(xí),機(jī)器視覺,情感計(jì)算,多模態(tài),NLP等相關(guān)職位,如有意向歡迎投簡(jiǎn)歷到:way@emokit.com
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。