哈工大秦兵：機器智能中的文本情感計算 | CCF-GAIR 2018

本文作者：楊曉凡

2018-07-30 23:55

專題：2018 CCF-GAIR 全球人工智能與機器人峰會

導語：文本情感計算的六個維度

雷鋒網(wǎng) AI 科技評論按：2018 全球人工智能與機器人峰會（CCF-GAIR）在深圳召開，峰會由中國計算機學會（CCF）主辦，雷鋒網(wǎng)、香港中文大學（深圳）承辦，得到了寶安區(qū)政府的大力指導，是國內(nèi)人工智能和機器人學術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流盛會，旨在打造國內(nèi)人工智能領(lǐng)域最具實力的跨界交流合作平臺。

CCF-GAIR 2018 延續(xù)前兩屆的「頂尖」陣容，提供 1 個主會場和 11 個專場（仿生機器人，機器人行業(yè)應(yīng)用，計算機視覺，智能安全，金融科技，智能駕駛，NLP，AI+，AI 芯片，IoT，投資人）的豐富平臺，意欲給三界參會者從產(chǎn)學研多個維度，呈現(xiàn)出更富前瞻性與落地性相結(jié)合的會議內(nèi)容與現(xiàn)場體驗。

哈工大秦兵：機器智能中的文本情感計算 | CCF-GAIR 2018

秦兵，女，哈爾濱工業(yè)大學計算機學院教授、博士生導師。哈爾濱工業(yè)大學社會計算與信息檢索中心副主任。中國中文信息學會理事、中國中文信息學會語言與知識計算專委會副主任、社會媒體處理專委會情感分析工作組組長、信息檢索專委會常委，國家重點基金項目負責人。在頂級國際會議 ACL、COLING、EMNLP、IEEE TKDE、IEEE TASLP等國內(nèi)外重要期刊及會議上發(fā)表論文60余篇，擔任多個會議領(lǐng)域主席以及多個期刊和會議的審稿人。主持多項國家自然科學基金以及國家科技部863項目。同時和多家互聯(lián)網(wǎng)企業(yè)開展合作，多項研究成果進入企業(yè)產(chǎn)品。獲中文信息學會錢偉長中文信息處理科學技術(shù)獎一等獎、黑龍江省技術(shù)發(fā)明二等獎。

秦兵教授的現(xiàn)場演講內(nèi)容雷鋒網(wǎng) AI 科技評論回顧如下。

主持人劉挺：CCF-GAIR 大會我去年也參加過，今年辦得比去年更成功、規(guī)模更大，已經(jīng)成為中國人工智能風向標，每個會場的參會人數(shù)也說明這個方向的火爆程度，今天是第三天開會還能坐滿整個會場，說明大家對自然語言處理的關(guān)注。

自然語言處理自起步以來，一直做事實型文本，特別是以新聞報道為主要處理對象，最近這十多年來，由于社交媒體的興起，越來越多學者開始研究人在互聯(lián)網(wǎng)上表達的情感，今天我們請來哈爾濱工業(yè)大學社會計算與信息檢索中心副主任秦兵教授。秦老師多年從事自然語言處理的研究，獲得國內(nèi)第一個關(guān)于文本情感分析方面的自然科學基金重點項目。作為社會媒體處理專委會情感分析專業(yè)組的組長，秦兵教授擔任今年SMP 2018大會程序委員會主席，這個大會也會和雷鋒網(wǎng)合作，歡迎大家 8月2-4日去哈爾濱。

下面我們以熱烈的掌聲歡迎秦老師作文本情感分析方面的報告。

秦兵：大家上午好！感謝雷鋒網(wǎng)和劉挺教授的邀請，今天我報告的題目是：機器智能中的文本情感。

哈工大秦兵：機器智能中的文本情感計算 | CCF-GAIR 2018

大家也知道，人工智能目前已進入迅猛發(fā)展階段，總體可以分為三個階段，第一個階段是計算智能的階段，這個階段計算機和人類相比是能存會算，它的超大存儲量、超高計算速度，這方面完勝人類。第二個階段是感知智能，以語音識別、圖像識別為代表的技術(shù)迅猛發(fā)展。大家也看過很多電視節(jié)目，包括“機智過人”、“最強大腦”；人和機器比圖象識別，機器已經(jīng)可以和人類相媲美甚至在某些方面超過人類。第三個階段是認知智能，這個階段需要機器能夠思考，能夠具有情感，這個階段考驗的是智能是否有情商，也就是說情感在人工智能認知階段還是非常重要的。

人工智能中的情感計算也不是現(xiàn)階段才提出來的，最早在人工智能之父明斯基就提過“我們的問題不是怎樣才能讓機器智能有情感，而是機器智能怎么能沒有情感?！蔽④浫驁?zhí)行副總裁沈向洋說“我們的智能不光有IQ，還需要有情感”。斯坦福人工智能實驗室主任李飛飛也曾說過“情緒和情感是人工智能的未來”。

何為情感？嚴格定義來講就是情感是人對客觀事物是否滿足自己需要而產(chǎn)生的態(tài)度體驗。機器對于情感的要求就是機器情感計算，也就是機器理解人類的情感和生成情感的能力。所以賦予計算機情感計算能力的研究引起了學術(shù)界和企業(yè)界的廣泛關(guān)注。很多人都看過電影《她》，人機戀愛出現(xiàn)在科幻電影中，未來也許會出現(xiàn)在我們的生活當中。

哈工大秦兵：機器智能中的文本情感計算 | CCF-GAIR 2018

機器情感怎么獲得？怎么和人進行交流？它首先要獲取人類的情感資源，比如它要去了解或?qū)W習如何識別情感、產(chǎn)生情感。社會媒體是觀察人類情感的有效窗口，也就是說我們每天在社交媒體上的各種活動，包括購物、聊天、社區(qū)、資訊、生活等等，這些都流露出人在某些方面的情感資源。我們可能平時沒有意識到，實際上這種資源大量存在，而且社交媒體中不僅有大量的文本資源，還有大量的情感資源。比如微博、大眾點評，微博上經(jīng)常出現(xiàn)一些喜怒哀樂情緒的發(fā)布，大眾點評中經(jīng)常是我們對產(chǎn)品、服務(wù)的評價，這里面有大量豐富的情感文本資源。社會媒體中的文本情感計算就是要結(jié)合社會媒體中除了文本，還有用戶和群體信息，然后對文本情感進行分析、處理和歸納，使得情感分析具有更好的針對性和精準性。

今天的報告主要從情感計算的六個維度來講：

哈工大秦兵：機器智能中的文本情感計算 | CCF-GAIR 2018

一、情感分類

首先從情感分類的角度出發(fā)，比如說人類的情感是多樣性的，我們經(jīng)常能想起來的詞或者看到的詞，比如喜極而泣、抱頭痛哭、捶胸頓足、七情六欲、五味雜陳等等，表達了我們的喜怒哀樂。實際上多年來也有很多人在這方面做了很多研究，比如七情六欲分為好、惡、樂、怒、哀、懼、欲等。此外，還有人從高興、悲傷、憤怒、恐懼、厭惡、驚奇等進行分類。

對于情感分類，一般來講有粗粒度情感分類，粗粒度情感分類主要用來判斷文本整體情感傾向，表明一個人對某件事或?qū)δ硞€物體的整體評價。情感計算中大多采用兩種，一種是傾向性分類，即褒、貶、中的分類，還有一種是微博中經(jīng)常出現(xiàn)的情緒分類，表示個人主觀情緒的喜、怒、悲、恐、驚。

哈工大秦兵：機器智能中的文本情感計算 | CCF-GAIR 2018

有了這么多類別體系，又有傾向性分類或情緒分類，分別針對我們對不同的產(chǎn)品、不同的服務(wù)，甚至表達的是我們個人的不同情感，無論它怎么劃分或者劃分的顆粒度有多細，總體來講它是一個分類任務(wù)，也就是說傳統(tǒng)的文本分類任務(wù)適用于情感分類，文本的情感分類可以看成是一種特殊的文本分類任務(wù)。那么傳統(tǒng)文本分類是通過訓練樣本、特征提取+機器學習模型，訓練好參數(shù)，對未知樣本進行分類預測。對于情感分類，考慮到特定的情感資源，相對于傳統(tǒng)文本分類，有了更多可利用的知識。

隨著深度學習的發(fā)展，也給文本情感分類帶來很多生機。這些年出現(xiàn)很多關(guān)于深度學習和情感分析相結(jié)合的情感類別預測任務(wù)。在深度學習過程當中可以加入情感資源，包括語言學的約束、情感辭典的信息，加入之后可以使情感分類和深度學習結(jié)合得更充分。

剛才講的是粗粒度分類，便于我們從整體上把握用戶對情感、對世界、對產(chǎn)品的整體傾向。還有一種分類叫細粒度情感分類，所謂細粒度即針對評價對象及其屬性的情感傾向，比如“iPhone10很不錯，除了貴，買不起，新的 iWatch 可以買一個，跑步就不要帶手機了”。這里面有兩個評價對象，第一個評價對象的評價是 iPhone 很不錯，但是很貴，在購不購買上持否定態(tài)度，對于 iWatch 來講，評價對象認為跑步時可以不用帶手機，所以相對于 iPhone 來講，更傾向于買 iWatch。我們做細粒度情感分析時就要分別把不同的評價對象抽取出來，把評價詞語、情感類別分別判定出來，這樣我們就可以細粒度分析一個產(chǎn)品、服務(wù)甚至情感。

當然，這種分類任務(wù)要結(jié)合文本當中不同的評價對象，所以面向評價對象的情感分類有很多種方法，比較典型的可以利用上下文信息，采用神經(jīng)網(wǎng)絡(luò)中的注意力機制，使某個評價對象和詞語能更好地尋找到搭配，從而來判斷。我們在 EMNLP2016 上發(fā)表的一篇論文就介紹了我們的成果。

哈工大秦兵：機器智能中的文本情感計算 | CCF-GAIR 2018

面向評價對象的情感分類，可以落地很多應(yīng)用，比如現(xiàn)在網(wǎng)絡(luò)上有很多文本，海量的評論，比如評論手機，具體來講是華為手機，我們在評論時按照細粒度分類，可以把評價對象、評價詞、屬性抽取出來，進一步構(gòu)建出評價手機體系的維度空間，也就是說你可能事先對某一個產(chǎn)品或某一個分類不知道從哪些角度去了解它，或者從哪些維度去分析它，但我們可以通過細粒度情感分類把這個體系歸納出來，同時對每一個粒度進行打分，比如圖中紅色和藍色的區(qū)別就是褒貶，顏色的不同表示它們打分值，這樣用戶可以在購買時進行評價，比如華為手機、蘋果手機或其他類型的手機。同時我們還可以把這些評論總結(jié)出來，比如評論的極性分布，剛才是細粒度的，總體來講有多少人是評價正面的，有多少人評價是負面的，這是粗粒度的，這些都可以給用戶提供全方位評價體驗。

粗粒度情感分類是為商家了解用戶對產(chǎn)品的評論，政府了解公眾輿情提供參考。細粒度情感分類可以提供所評價的產(chǎn)品或服務(wù)的精準畫像，為商家和用戶提供不同的評估。

二、隱式情感

無論是你聽別人的話，還是自己表達情感時，可能未必會使用情感詞。情感表達中有20%-30%是沒有情感詞的，它屬于隱式情感，而隱式情感多使用事實型陳述和語言修辭表達，從隱式情感分布來講，有事實型，有比喻型，有反問型，其中事實型情感占72%。采用事實型情感，比如一個人住到酒店，他在發(fā)微博時說“桌子上有一層灰”，這沒有任何情感詞，但實際上已經(jīng)表達了他的不滿，這就是事實型表述。再看褒義描述，“從下單到收到貨不到24小時”，表明他稱贊快遞速度很快，但沒有明顯的表達詞，這些都屬于事實型表述。

哈工大秦兵：機器智能中的文本情感計算 | CCF-GAIR 2018

這種事實型描述怎么挖掘？這種事實型表述出現(xiàn)很頻繁，這個時候我們可以采用上下文，比如我說“桌子上有一層灰，很不高興”，就可以把“桌子上有一層灰”定義為貶義的?；蛘哒也坏缴舷挛牡脑挘部梢栽谄渌漠斨姓业礁嗨频恼Z句，再判定情感，通過借助周圍上下文的分析進行推理，得到這句話的情感，這是一種解決策略。同時，我們也可以借助某種知識，比如快遞多長時間算快，或者說這個人身高1.8米，我們有個常識，一米幾以上就算高個兒，類似這樣的知識可以幫助我們進行隱式情感分析。

除了事實型之外，還有一種是修辭型的，修辭型的更難區(qū)分，“拿機器人和人相比，“你咋這么聰明呢？”平常你可以聽到別人這么夸你或者這么諷刺你，但有的時候光看語言的話，我們很難判定是夸你聰明還是笨。此外，還有隱喻的方式，比如一個人去旅游勝地愛琴海，他在描述中說“此乃西方文明的搖籃”，這就是一種比喻，這種比喻包含很多贊賞，這種修辭型怎么表達出來？或者怎么把大量的存在于我們生活當中的隱式情感挖掘出來，這需要很多知識，從資源的角度來講，大連理工大學林鴻飛老師有一些隱喻語料庫，山西大學王素格老師有一些隱式情感語料庫，分別對事實型和修辭型隱式情感提供了一定幫助。當然，語料庫只是提供某些支持，隱式情感是一種含蓄的表達方式，隱式情感表達因為缺少情感詞的指引，所以需要尋找新的特征與表示方法。而且要結(jié)合目標，比如我們說到玫瑰花、紅豆、月亮，說到這些詞的時候會聯(lián)想到哪些情感，這些和知識和上下文都會通過分析推理獲得隱式情感的語義。

三、情感溯因

哈工大秦兵：機器智能中的文本情感計算 | CCF-GAIR 2018

分析情感的目的是什么？這些情感產(chǎn)生的原因又是什么？比如他是因為什么高興、因為什么傷心、因為什么憤怒，我們需要情感溯因，也為了大家更好地觀察產(chǎn)品、體會服務(wù)以及體察對方的情感。從原因來看，一般是“情”出有因，這里有一個例子看著懂事的女兒每天被病痛折磨著，自己卻不能為她捐腎，想到自己無能為力，張志英泣不成聲”。我們可以進行溯因，也就是要知其然，也要知其所以然，知道了原因之后，比如你知道一個人有潔癖，忍受不了桌子上有一層灰，下次她再看到一個地方的桌子上有一層灰，可能她沒有表達出來，但你能預期到她會生氣。

文本情感的原因發(fā)現(xiàn)方法，比如哈工大深圳研究院的徐睿峰老師做過一些工作，也有語料庫，一般是按照類似問答系統(tǒng)研究的方式，這里面有情感詞、有原文，通過記憶網(wǎng)絡(luò)判別這個文章中哪句話是原因，通過類別判斷是或不是。

哈工大秦兵：機器智能中的文本情感計算 | CCF-GAIR 2018

另外一種是群體，除了文本情感原因，社交媒體上也有很多值得我們發(fā)掘的原因，比如長江郵輪傾覆這件事中有很多悲哀的情緒，但是為什么還會有喜悅的成分呢？大家也會疑惑，我們通過此事件分析，對長江郵輪傾覆事件的喜悅實際上是由于沉船內(nèi)部有生命跡象和載客458人，救起8人，由這些子事件導致大家覺得有希望的情感，所以表達出來了喜悅，這也是情感原因的發(fā)現(xiàn)方法，從社交媒體上通過子事件進行分析。

四、個性化

通過進一步分析我們可以知道人和人是不同的，同一對象，不同人立場不同，可能表達出不同情感；相同對象，不同人表達相同情感，用詞風格不同。比如男生和女生對待某一件事的時候可能分歧很大，所以在情感計算中要加入用戶特征，比如用戶畫像技術(shù)，這里面包括自然屬性、社會屬性、興趣屬性、心理屬性等。一般立場不同，情感可能會不同，比如去年廣為人知的“青島38元大蝦”和“哈爾濱天價魚”事件，關(guān)于青島38元大蝦，“在南方的東北妹子”評價說“米飯按粒賣，我不得不傾家蕩產(chǎn)么！”關(guān)于哈爾濱天價魚中的評價是“北方人覺得南方小小氣氣，南方人覺得北方人沒素質(zhì)”。此外，人們的用詞風格也會不同，這里有兩個人，一個人很容易用非?？鋸埖脑~，比如“這個車太漂亮了”，另一個人會說“還行吧”，他所說的“還行吧”對他來講就是很好了。我們用兩個人發(fā)表的文章進行對比，不同的人發(fā)表的文章在情感分值差異性上會有不同，用詞風格也如此，同一篇文檔，比如這個人發(fā)表的文檔相似度很高，他評價車、評價服裝時都會使用很夸張的詞。如果跟另外一個人來比較，文章用詞的相似度就很低。

我們在神經(jīng)網(wǎng)絡(luò)分類中融入用戶和產(chǎn)品的向量和矩陣表示信息，然后把它融入已有神經(jīng)網(wǎng)絡(luò)框架，應(yīng)用到文本情感分類任務(wù)，這一部分內(nèi)容的論文發(fā)表在 2015 年的 ACL 上。

五、領(lǐng)域問題

我們在不同的領(lǐng)域都存在遷移的問題，以圖書和電子領(lǐng)域為例，每個領(lǐng)域的評價對象都不同，不同領(lǐng)域的評價表達千差萬別，不同領(lǐng)域中的同一情感表達極性不同。比如“簡單”這一詞，情節(jié)簡單和上手簡單表達的情感就不一樣。這需要我們進行跨領(lǐng)域的情感研究，也就是進行模型遷移過程，通常在情感分析領(lǐng)域的遷移，一是利用領(lǐng)域無關(guān)的詞和領(lǐng)域相關(guān)詞的鏈接關(guān)系，再進行分別聚類。在神經(jīng)網(wǎng)絡(luò)當中，通過神經(jīng)網(wǎng)絡(luò)的隱層參數(shù)盡量提取與情感相關(guān)、但與領(lǐng)域無關(guān)的詞的特征來分類。

六、情感生成

實際上我們一直分析的是人類的情感，我們一直很期待機器是不是能產(chǎn)生情感，也就是說機器有情感嗎？有三觀嗎？目前機器是沒有自主意識的，而指定情感類別的情感生成可以做到，比如說我們可以根據(jù)指定的情感類別生成情感表達，也可以在聊天機器人當中根據(jù)轉(zhuǎn)移概率進行變換，此外也可以對情感表達進行潤色和風格轉(zhuǎn)換。

評論文本生成很簡單，只要你輸入一個用戶名、產(chǎn)品名，輸入打分、偏好，就可以生成相應(yīng)的文本情感表達，大家可能會經(jīng)常會在產(chǎn)品評論中看到一些機器生成的評論，有些時候可以判別出是機器生成的，有的時候判別不出來。

在聊天系統(tǒng)中可以情感回復生成，例如上一句話說“我的狗丟了”，然后生成一個生氣的回復，我們在這一部分加入情感類別因素，向量和矩陣疊加起來，生成新詞帶入到下面，所以生成的下文是“誰讓你不管好！”這是明顯的表達生氣情感回復。

哈工大秦兵：機器智能中的文本情感計算 | CCF-GAIR 2018

此外，我們可以進行文本的情感極性變換及潤色，比如原句是“服務(wù)不周，而且極其粗魯”，可以修改為“服務(wù)到位，而且非常清爽”。還可以進行文章的潤色，比如“兩只狗在樹邊玩?！?，我們可以把它修改為“兩只狗在樹邊玩耍，享受童年的快樂”。

哈工大秦兵：機器智能中的文本情感計算 | CCF-GAIR 2018

情感文本生成邁出機器發(fā)出情感的第一步，在聊天系統(tǒng)中可以進行情感互動，自動生成評論文本可以豐富用戶的表達方式，比如一個人不善表達，但他對這個東西打分非常好，我們可以幫助他生成一段文字，豐富他的表達方式。

總的來講，情感分析已經(jīng)發(fā)展了很多年，已經(jīng)落地產(chǎn)生了很多應(yīng)用，產(chǎn)生巨大價值，比如在社會輿情方面、電子商務(wù)方面，如大家經(jīng)常看到的淘寶網(wǎng)等等，再比如在傳統(tǒng)行業(yè)方面，比如幫助ZARA進行服裝設(shè)計改進，此外在金融等特定領(lǐng)域都發(fā)揮了巨大的作用，這是一個很接地氣的方向，同時也具有很多技術(shù)挑戰(zhàn)。

哈工大秦兵：機器智能中的文本情感計算 | CCF-GAIR 2018

我們來看一下能否進行詩詞鑒賞。例如一個高考題目，關(guān)于一首杜甫的詩，“韋曲花無賴，家家惱煞人”，描寫春色的美。“綠樽須盡日，白發(fā)好禁春”是說在這樣的日子需要喝酒，需要好好享受春天的氣息?！笆倾^衣破，藤梢刺眼新”描述他已經(jīng)不顧衣服被石角鉤破，欣賞藤梢冒出的新芽?！昂螘r占叢竹，頭戴小烏巾”表達什么時候能頭戴小烏巾歸隱山林。問題是談?wù)勗姷淖詈髢删浔磉_了詩人怎樣的思想感情。參考答案是對于春色的描述表達出作者的喜愛之情，因此產(chǎn)生對歸隱山林的隱士生活的向往。情感分析中用了很多其他技術(shù)，包括古詩詞、隱喻等等，能表達情感和背后隱藏的歸隱山林的心情，什么時候·機器的情感分析也能進一步分析出這種情感，同時又能像剛才孫茂松老師介紹的古詩詞一樣，能夠生成帶有指定情感的古詩詞也是情感分析未來需要探索的。

最后總結(jié)一下。情感是人類的高級思維方式；機器可以通過學習理解人類的情感模式，了解人類的情感；情感溯因可以幫助更深入理解人類情感動機；機器可以借助指定情感類別方式生成情感文本；鑒賞類或文學作品賞析情感計算值得我們繼續(xù)探索。真正具有自主意識的情感智能還未到來。謝謝大家！

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。