0
雷鋒網(wǎng) AI 科技評論按:在未來的世界里,機器人無需與我們產(chǎn)生交流,也能看透我們內心的小九九,這是否聽起來有點像是天方夜譚?近期,一支由查珀爾希爾大學(University of Chapel Hill)和馬里蘭大學(University of Maryland)組成的研究團隊,正試圖讓這一切成為現(xiàn)實。
除了語言,機器還能如何讀懂人類的情緒?
情緒毫無疑問在生活中扮演著重要的角色,我們都是通過看別人「臉色」,進而決定下一步采取的應對行為。比如正在生氣的女朋友,以及心情大好的女朋友,交流使用的肯定不是同一套話術。反過來,很多時候我們也會被他人的情緒影響我們的行為。
因此,自動情緒識別技術是諸多領域的剛需,如游戲娛樂、安保執(zhí)法、購物、人機交互等。有了它,機器人將能更好地與人類產(chǎn)生交流。對于具備自然語言處理能力的機器人而言,它們可以通過文字/語言交流去推斷出用戶的情緒,因而問題不大;對于那些不具備相關能力的機器人來說,是否能夠通過非語言的方式,比如面部表情或動作姿態(tài),去判斷人類當下的情緒狀態(tài),依然是一個棘手的問題,目前學界有不少團隊正試圖為此找到理想方案。
在過去,研究更多集中在幫助機器解讀人類豐富表情的含義,然而近期的一些心理學文獻卻對此提出了質疑——很多種情況下,由于存在一些干擾,人類面部表情不一定代表著對應的交際目的。與此同時,越來越多研究表明,人體行為在情緒傳遞方面同樣扮演者非常重要的角色,而人們在行走時的身體表情或者步態(tài),已經(jīng)被證明有助于感知情緒。打個比方,當我們沮喪時,上半身會處于聳拉狀態(tài),肢體活動速度變慢;當我們快樂時,肢體活動節(jié)奏會明顯變快,手臂的擺動次數(shù)變多。
一個解決方案
在這篇名為《Identifying Emotions from Walking Using Affective and Deep Features》的論文中,研究團隊提出了一種全新的自動情緒識別方法,可以將視頻中行走的人類進行歸類為快樂、悲傷、憤怒或中立 4 種情感類別。
簡單來說,他們先將這些成功提取出的步態(tài)轉換為三維形態(tài),然后使用基于 LSTM 的方法對這些連貫性的 3D 人體姿勢進行長期依賴性建模,以獲得深度特征。接著,他們提出了表示人類行走姿勢與運動的時空情感身體特征(spatio temporal affective body features),最后將兩者進行集合,并使用隨機森林分類器(Random Forest Classifier)將成果歸類成上述提及的 4 種情感類別。
往細了講,即是先通過多個步態(tài)數(shù)據(jù)集提取出情感特征——這些情感特征建立在心理表征基礎上,當中包括了體態(tài)特征和動作特征。接著,通過訓練 LSTM 網(wǎng)絡進行深度特征提取,然后將深度特征與情感特征相結合,對隨機森林分類器進行訓練。最后,只要給出一個人行走的 RGB 視頻,該 3D 人體步態(tài)評估技術將會以 3D 形式對他/她的步態(tài)進行解析,進而提取出情感與深層特征,最后再用已經(jīng)訓練好的隨機森林分類器來識別出個體的情感狀態(tài)。
讀懂人類情緒的奧秘
要準確評估一個人的情感狀態(tài),姿勢與運動特征都是必不可少的,其中就包括關節(jié)角度、擺動距離、擺動速度以及身體所占空間等特征,都可以被用于識別步態(tài)中傳遞的情感狀態(tài)?;谶@些心理學發(fā)現(xiàn),該團隊的工作便將姿勢與運動特征都包含了進來。
在姿勢特征方面,該團隊主要從這幾個方面進行了定義:
體積:身體的舒展一般傳達的是正面情緒;當一個人在表達負面情緒的時候,身體姿勢往往更緊湊。
面積:通過手和頸部之間以及腳和根關節(jié)之間的三角區(qū)域來模擬身體的擴張情況。
距離:腳和手之間的距離也可用于模擬身體的擴張情況。
角度:頭部傾斜情況,通過頸部不同關節(jié)延伸的角度來區(qū)分快樂和悲傷情緒。
此外,他們還將步幅作為姿勢的特征之一——長步幅表示憤怒和快樂;短步幅表示悲傷和中立。
在運動特征方面,他們則做出以下定義:
與低喚醒情緒相比,高喚醒情緒的運動明顯在頻次上會更密集。
快步態(tài)代表快樂或憤怒;慢步態(tài)代表悲傷。
最終實驗結果顯示,該團隊的方案相較其他分類方法,準確率更高,達到 80:07%;即便用于非動作數(shù)據(jù)集(non-acted data)上,準確率也高達 79:72%。
總結
總的來說,該團隊是第一個利用最先進的 3D 人體姿勢評估技術,提供能夠從步行視頻中實時識別出情感狀態(tài)的方法。值得一提的是,這個研究最終促成了一個視頻數(shù)據(jù)集 —— EWalk,內容都是些人們的行走視頻,被分別打上了對應的情感標簽。
目前該方法當然也不是盡善盡美的,比如:
算法主要還是取決于 3D 人體姿勢評估技術和步態(tài)提取算法的精度,換而言之,如果姿勢或步態(tài)存在噪聲,那么相應的情緒預測就可能是不準確的。
該情感算法需要提取全身關節(jié)的位置,一旦視頻存在被遮擋的情況,就有可能無法獲得全身的姿勢數(shù)據(jù)。
行走動作必須是自然的,且不涉及任何配件(手提箱、手機……)
無論如何,這昭示著在機器讀懂人類情緒這條道路上,已經(jīng)取得了關鍵一步。在未來的世界里,機器人無需與我們產(chǎn)生交流,也能看透我們內心的小九九。所以,顫抖吧,人類!
via https://arxiv.org/pdf/1906.11884.pdf
雷鋒網(wǎng) AI 科技評論雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。