0
本文作者為哈工大SCIR實(shí)驗(yàn)室丁效,李忠陽(yáng),劉挺,雷鋒網(wǎng)獲權(quán)轉(zhuǎn)載。
2016年7月,哈工大社會(huì)計(jì)算與信息檢索研究中心(HIT-SCIR)開(kāi)始啟動(dòng)事理圖譜的研究工作。2017年10月,研究中心主任劉挺教授在中國(guó)計(jì)算機(jī)大會(huì)(CNCC)上正式提出事理圖譜的概念。2018年9月,在研究中心丁效老師的主持下,研制出中文金融事理圖譜1.0版本,2019年7月更新為2.0版。本文是對(duì)2016年7月以來(lái)工作的最新總結(jié),敬請(qǐng)各位同行指正。
事件是人類社會(huì)的核心概念之一,人們的社會(huì)活動(dòng)往往是事件驅(qū)動(dòng)的。事件之間在時(shí)間、空間上相繼發(fā)生的演化規(guī)律和模式是一種十分有價(jià)值的知識(shí)。然而,現(xiàn)有的典型知識(shí)圖譜均以實(shí)體及其屬性和關(guān)系為研究核心,缺乏對(duì)事理邏輯這一重要人類知識(shí)的刻畫(huà)。為了彌補(bǔ)這一不足,事理圖譜應(yīng)運(yùn)而生,它能夠揭示事件的演化規(guī)律和發(fā)展邏輯,刻畫(huà)和記錄人類行為活動(dòng)。在圖結(jié)構(gòu)上,事理圖譜是一個(gè)有向有環(huán)圖,其中節(jié)點(diǎn)表示事件,有向邊表示事件之間的演化關(guān)系。現(xiàn)實(shí)世界中事件演化規(guī)律的復(fù)雜性決定了我們必須采用這種復(fù)雜的圖結(jié)構(gòu)。本質(zhì)上,事理圖譜是一個(gè)事理邏輯知識(shí)庫(kù),描述了事件之間的演化規(guī)律和模式。
隨著深度學(xué)習(xí)的興起,人工智能迎來(lái)了新的發(fā)展高潮。人工智能的一個(gè)發(fā)展瓶頸在于,如何讓機(jī)器掌握人類知識(shí)。例如,人類能輕易理解“吃過(guò)飯”后,就“不餓”了這樣的常識(shí)知識(shí),而讓機(jī)器理解并掌握大量這樣的知識(shí)是一件極其困難的事情,而這也是通往強(qiáng)人工智能的必由之路。在眾多類型的人類知識(shí)中,事理邏輯是一種非常重要且普遍存在的知識(shí)。
許多人工智能應(yīng)用依賴于對(duì)事理邏輯知識(shí)的深刻理解。以隱式消費(fèi)意圖識(shí)別以及隱式情感分析為例,只有讓機(jī)器知道“結(jié)婚”事件伴隨著后續(xù)一系列消費(fèi)事件,例如“買(mǎi)房子”、“買(mǎi)汽車(chē)”和“去旅行”,我們才能在觀察到“結(jié)婚”事件的時(shí)候,準(zhǔn)確地識(shí)別出用戶潛在的隱式消費(fèi)意圖,進(jìn)而向目標(biāo)用戶做出精準(zhǔn)的產(chǎn)品推薦。只有讓機(jī)器掌握“考試不及格”會(huì)引起“情緒低落”這樣的常識(shí)事理,才能從顯式事件當(dāng)中挖掘出用戶背后的隱式情感?,F(xiàn)有的對(duì)話生成系統(tǒng)大多從大規(guī)模對(duì)話語(yǔ)料中以最大似然估計(jì)進(jìn)行訓(xùn)練。然而人類對(duì)話的語(yǔ)義和語(yǔ)境是復(fù)雜多變的,這樣得到的對(duì)話系統(tǒng)很難深入理解對(duì)話上下文的前因后果,而只是對(duì)訓(xùn)練語(yǔ)料中特定問(wèn)答模式的記憶。只有讓機(jī)器理解了“吃過(guò)飯”之后“人不餓了”,“看電影”之前要“先買(mǎi)票”這樣的常識(shí)事理,對(duì)話系統(tǒng)才能根據(jù)不同的問(wèn)答語(yǔ)境,做出更加智能的回復(fù)。股市一般伴隨著短期內(nèi)隨機(jī)的小波動(dòng),以及長(zhǎng)期內(nèi)重大事件驅(qū)動(dòng)的大波動(dòng)。例如,近來(lái)隨著人工智能迎來(lái)發(fā)展高潮,以及“國(guó)家將人工智能列為國(guó)家發(fā)展戰(zhàn)略”,科大訊飛等人工智能企業(yè)股價(jià)迎來(lái)了一波大漲。事件驅(qū)動(dòng)的股市預(yù)測(cè)悄然興起。從金融文本中挖掘“糧食減產(chǎn)”導(dǎo)致“農(nóng)產(chǎn)品價(jià)格上漲”,再導(dǎo)致“通脹”,進(jìn)而導(dǎo)致“股市下跌”這樣的遠(yuǎn)距離事件依賴,對(duì)于事件驅(qū)動(dòng)的股市漲跌預(yù)測(cè)非常有價(jià)值。事理邏輯知識(shí)的挖掘與知識(shí)庫(kù)構(gòu)建迫在眉睫,這將極大地推動(dòng)多項(xiàng)人工智能應(yīng)用的發(fā)展。
事件是人類社會(huì)的核心概念之一,人們的社會(huì)活動(dòng)往往是事件驅(qū)動(dòng)的。事件之間在時(shí)間上相繼發(fā)生的演化規(guī)律和模式是一種十分有價(jià)值的知識(shí),挖掘這種事理邏輯知識(shí)對(duì)我們認(rèn)識(shí)人類行為和社會(huì)發(fā)展變化規(guī)律非常有意義。然而,當(dāng)前無(wú)論是知識(shí)圖譜還是語(yǔ)義網(wǎng)絡(luò)等知識(shí)庫(kù)的核心研究對(duì)象都不是事件。盡管傳統(tǒng)知識(shí)圖譜在現(xiàn)代搜索引擎中(例如Google、Bing、Baidu等商業(yè)搜索引擎)得到了廣泛應(yīng)用,但是其聚焦于實(shí)體和實(shí)體之間的關(guān)系,缺乏對(duì)事理邏輯知識(shí)的挖掘。我們認(rèn)為事理邏輯知識(shí),包括事件之間的順承、因果、條件和上下位等關(guān)系,對(duì)于人工智能領(lǐng)域的多種任務(wù)具有非常巨大的價(jià)值。為了揭示事件的演化規(guī)律和發(fā)展模式,我們提出了事理圖譜的概念,旨在將事件的演化規(guī)律和模式構(gòu)建成一個(gè)有向圖形式的事理知識(shí)庫(kù),用于刻畫(huà)和記錄人類行為活動(dòng)和事件客觀演化規(guī)律。
事理圖譜(Event Logic Graph,縮寫(xiě)ELG)是一個(gè)事理邏輯知識(shí)庫(kù),描述了事件之間的演化規(guī)律和模式。結(jié)構(gòu)上,事理圖譜是一個(gè)有向有環(huán)圖,其中節(jié)點(diǎn)代表事件,有向邊代表事件之間的順承、因果、條件和上下位等事理邏輯關(guān)系。
理論上,事理圖譜中的事件是具有一定抽象程度的泛化事件。表示為抽象、語(yǔ)義完備的謂詞短語(yǔ)或句子,也可以表示為可變長(zhǎng)度的、結(jié)構(gòu)化的(主體、事件詞、客體)多元組,其中必然包含一個(gè)事件詞,標(biāo)志事件的發(fā)生,例如:“跑步”,而事件的主體和客體都可以在不同的應(yīng)用場(chǎng)景下被省略,例如:“(元首,出訪)”可以省略事件的客體,“(購(gòu)買(mǎi),機(jī)票)”可以省略事件的主體。一般情況下,事件以及事件的抽象程度與該事件發(fā)生的場(chǎng)景緊密關(guān)聯(lián)在一起,脫離了具體的場(chǎng)景,一個(gè)單獨(dú)的事件可能變得過(guò)度抽象而難以理解。
例如,雖然脫離了具體的場(chǎng)景,但“吃火鍋”, “看電影”, “去機(jī)場(chǎng)”,“地震” 仍是合理的事件表達(dá);但“做事情”,“吃”等事件由于過(guò)度抽象,屬于不合理或不完整的事件表達(dá)。事件詞可以是動(dòng)詞或名詞,但是絕大多數(shù)事件都是動(dòng)詞觸發(fā)的。其中,按動(dòng)詞的內(nèi)容意義進(jìn)行劃分,可將事件分為動(dòng)作類事件、狀態(tài)類事件、關(guān)系類事件與能愿類事件四個(gè)大類。
我們認(rèn)為,現(xiàn)實(shí)世界中有四種事理邏輯關(guān)系特別重要,也是我們提出的事理圖譜中主要關(guān)注的事理邏輯關(guān)系,包括事件之間的順承關(guān)系、因果關(guān)系、條件關(guān)系和上下位關(guān)系。
順承關(guān)系是指兩個(gè)事件在時(shí)間上相繼發(fā)生的偏序關(guān)系。我們借鑒TimeML時(shí)序關(guān)系類別中的before和after偏序關(guān)系,在事理圖譜中的順承關(guān)系包括兩種情況:一種情況是順承的前序事件a結(jié)束后,后序事件b緊接著發(fā)生;另一種情況是前序事件a結(jié)束后,隔一段時(shí)間后序事件b才會(huì)發(fā)生,具體如圖1所示。兩個(gè)前后順承的事件之間存在一個(gè)介于0到1之間的轉(zhuǎn)移概率,表示從一個(gè)事件按時(shí)序順承關(guān)系演化到下一事件的置信度。
圖1 兩種順承關(guān)系示例
因果關(guān)系是指兩個(gè)事件之間,前一事件(原因)的發(fā)生導(dǎo)致后一事件(結(jié)果)的發(fā)生。在事理圖譜中,因果關(guān)系滿足原因事件在前,結(jié)果事件在后的時(shí)間上的偏序關(guān)系,因此在一定意義上,可以認(rèn)為因果關(guān)系是順承關(guān)系的子集。因果事件對(duì)之間存在一個(gè)介于0到1之間的因果強(qiáng)度值,表示該因果關(guān)系成立的置信度。
條件關(guān)系是指前一個(gè)事件是后一個(gè)事件發(fā)生的條件。條件關(guān)系屬于思想中命題的某種邏輯關(guān)系,因果關(guān)系屬于對(duì)客觀事實(shí)的某種認(rèn)識(shí),我們認(rèn)為“原因≠理由”,“原因”指的是事件之間的因果關(guān)系,是關(guān)于事實(shí)的,“理由”是前提與結(jié)論或論據(jù)與論點(diǎn)的內(nèi)在聯(lián)系,是關(guān)于邏輯的。舉例來(lái)說(shuō),“如果買(mǎi)票的人多,那么電影好看”這一條件是成立的,而“因?yàn)橘I(mǎi)票的人多,所以電影好看”這一因果是不成立的。
上下位關(guān)系:事件之間的上下位關(guān)系有兩種:名詞性上下位關(guān)系和動(dòng)詞性上下位關(guān)系。例如,事件“食品價(jià)格上漲”與“蔬菜價(jià)格上漲”構(gòu)成名詞性上下位關(guān)系;事件“殺害”與“刺殺”互為動(dòng)詞性上下位關(guān)系。需要注意的是,上下位關(guān)系一般是沒(méi)有疑義的確定知識(shí),因此可認(rèn)為該類關(guān)系的置信度為常數(shù)1或0,即表示該知識(shí)是正確的或者是錯(cuò)誤的。
事理圖譜除了關(guān)注事件之間的事理邏輯關(guān)系外,還關(guān)注事件自身的屬性。事件屬性用來(lái)描述事件發(fā)生的程度、持續(xù)時(shí)間等。在進(jìn)行推理時(shí),事件屬性會(huì)起到非常重要的作用,例如,從金融文本中可以抽取到“貨幣超發(fā)”會(huì)導(dǎo)致“匯率貶值”,“匯率貶值”又會(huì)導(dǎo)致“貨幣緊縮”,而實(shí)際上“貨幣持續(xù)超發(fā)”才會(huì)導(dǎo)致“匯率貶值”,而“匯率大幅貶值”才會(huì)導(dǎo)致“貨幣緊縮”,這里面“持續(xù)”和“大幅”作為事件的屬性,可以影響到事件未來(lái)的走勢(shì)情況。此外,“股票下跌/上漲”的百分比也是事件重要的屬性,股票上漲0.1%和上漲10%對(duì)未來(lái)事件的影響是有非常明顯的區(qū)別的。
“知識(shí)圖譜”這一術(shù)語(yǔ)有兩層含義。如果認(rèn)為“知識(shí)圖譜”表示廣義上的知識(shí)庫(kù),是一種用以存儲(chǔ)知識(shí)的本體的話,那么“事理圖譜”可以認(rèn)為是一種存儲(chǔ)事理邏輯關(guān)系的“知識(shí)圖譜”;如果認(rèn)為“知識(shí)圖譜”特指狹義上現(xiàn)階段谷歌、百度所構(gòu)建的以實(shí)體為中心、用于提升用戶搜索體驗(yàn)的知識(shí)庫(kù),以及Freebase、 YAGO、 DBpedia、ConceptNet和微軟的Concept Graph等產(chǎn)品的話,那么“事理圖譜”便是與“知識(shí)圖譜”相并列的一種新型常識(shí)知識(shí)庫(kù)。
事理圖譜與傳統(tǒng)知識(shí)圖譜有本質(zhì)上的不同。如表1所示,事理圖譜以事件為核心研究對(duì)象,有向邊表示事理邏輯關(guān)系,即順承、因果、條件和上下位;邊上標(biāo)注有概率信息說(shuō)明事理圖譜是一種事件間相繼發(fā)生可能性的刻畫(huà),不是確定性關(guān)系。而知識(shí)圖譜以實(shí)體為核心研究對(duì)象,實(shí)體屬性以及實(shí)體間關(guān)系種類往往成千上萬(wàn)。知識(shí)圖譜以客觀真實(shí)性為目標(biāo),某一條屬性或關(guān)系要么成立,要么不成立。
事理圖譜課題主要研究從大規(guī)模無(wú)結(jié)構(gòu)化(或者結(jié)構(gòu)化、半結(jié)構(gòu)化)文本數(shù)據(jù)中自動(dòng)獲取事理邏輯知識(shí),并將這些知識(shí)組織成有向有環(huán)圖結(jié)構(gòu),用以描述事件之間的演化規(guī)律和模式。這樣的知識(shí)庫(kù)我們稱之為“事理圖譜”。
事理圖譜項(xiàng)目包含“構(gòu)建”、“推理”和“應(yīng)用”三個(gè)關(guān)鍵技術(shù)點(diǎn):
(1) 事理圖譜的構(gòu)建
事理圖譜的構(gòu)建主要用到以下具體的自然語(yǔ)言處理技術(shù):事件定義、開(kāi)放域或限定域事件抽取,事理關(guān)系抽取(包含事件順承、因果、上下位關(guān)系抽取等),事理關(guān)系置信強(qiáng)度計(jì)算,事件相似度計(jì)算,事件抽象與泛化等。
(2) 事理圖譜的推理
事理圖譜的推理可以用于事件及關(guān)系的補(bǔ)全,主要涉及到的技術(shù)有:結(jié)構(gòu)化事件表示學(xué)習(xí),短語(yǔ)級(jí)、句子級(jí)事件表示學(xué)習(xí),事理圖譜圖結(jié)構(gòu)上的圖神經(jīng)網(wǎng)絡(luò)技術(shù)等。
(3) 事理圖譜的應(yīng)用
事理圖譜的應(yīng)用是指將構(gòu)建好的事理圖譜用于下游任務(wù),例如消費(fèi)意圖識(shí)別和商品推薦、對(duì)話系統(tǒng)回復(fù)生成、股市漲跌預(yù)測(cè)、未來(lái)事件預(yù)測(cè)等,幫助提升具體任務(wù)的效果。此階段用到的技術(shù)主要有:事理圖譜的存儲(chǔ)與查詢(事件的搜索與匹配),事件表示學(xué)習(xí),事理圖譜表示學(xué)習(xí)等。
與事理圖譜項(xiàng)目密切相關(guān)的技術(shù)領(lǐng)域主要包含以下幾個(gè)方面:
(1) 常識(shí)知識(shí)庫(kù)資源構(gòu)建
傳統(tǒng)的常識(shí)知識(shí)庫(kù)資源構(gòu)建主要圍繞實(shí)體及其關(guān)系展開(kāi)。2012年谷歌成功將大規(guī)模知識(shí)圖譜商業(yè)化,顯著改善了搜索結(jié)果的呈現(xiàn)方式,并提升了搜索引擎的用戶體驗(yàn)。之后以實(shí)體為中心的知識(shí)圖譜獲得了長(zhǎng)足的發(fā)展以及廣泛的應(yīng)用。時(shí)至今日,知識(shí)圖譜仍然是學(xué)術(shù)界的一個(gè)發(fā)展熱點(diǎn)。知識(shí)圖譜上的知識(shí)表示學(xué)習(xí)、實(shí)體鏈接、實(shí)體消歧、知識(shí)圖譜補(bǔ)全等等研究方向仍然是當(dāng)下研究的熱點(diǎn)問(wèn)題。
然而,已有研究者注意到事件常識(shí)的重要性,部分最新的研究工作開(kāi)始研究以事件為中心的常識(shí)知識(shí)庫(kù)構(gòu)建。
(2) 統(tǒng)計(jì)腳本學(xué)習(xí)
給出多個(gè)事件組成的上文,統(tǒng)計(jì)腳本學(xué)習(xí)研究下一個(gè)可能發(fā)生的事件是什么,可以認(rèn)為是建模事件預(yù)測(cè)的能力。
傳統(tǒng)方法多在無(wú)監(jiān)督抽取的結(jié)構(gòu)化事件鏈條上進(jìn)行模型的搭建,這條技術(shù)路線仍然在發(fā)展當(dāng)中,不斷有新的模型涌現(xiàn);最近,學(xué)者們提出故事結(jié)尾預(yù)測(cè)的評(píng)估方式,是對(duì)傳統(tǒng)評(píng)估方法的進(jìn)一步完善。
(3) 事件順承關(guān)系抽取
由于語(yǔ)料標(biāo)注的限制,事件時(shí)序關(guān)系抽取研究進(jìn)展相當(dāng)緩慢。雖然曾經(jīng)連續(xù)舉辦多個(gè)技術(shù)評(píng)測(cè),推動(dòng)了該技術(shù)的發(fā)展,但是進(jìn)步仍然十分有限。最近,時(shí)序關(guān)系抽取重新引起了學(xué)者的研究興趣,有許多相關(guān)研究發(fā)表。從預(yù)料的構(gòu)建,識(shí)別方法的改進(jìn)等多個(gè)方面繼續(xù)推動(dòng)該研究走向使用階段。目前,已有開(kāi)放域的時(shí)序關(guān)系抽取系統(tǒng)發(fā)布。
(4) 事件因果關(guān)系抽取
文本中的因果關(guān)系抽取一直是一個(gè)難點(diǎn)。雖然學(xué)者們提出了許多方法,但是仍以因果模板匹配的方法抽取精確度最好。模板匹配的缺點(diǎn)在于召回率難以保證,許多有價(jià)值的因果關(guān)系無(wú)法召回。目前,高效準(zhǔn)確的因果關(guān)系抽取方法仍然是一個(gè)難點(diǎn)及研究熱點(diǎn)。
(5) 知識(shí)表示學(xué)習(xí)與網(wǎng)絡(luò)表示學(xué)習(xí)
知識(shí)表示學(xué)習(xí)是指將知識(shí)圖譜中的實(shí)體及關(guān)系映射到低維稠密向量,進(jìn)而可以更加方便地用于后續(xù)任務(wù)當(dāng)中。網(wǎng)絡(luò)表示學(xué)習(xí)的研究對(duì)象不僅僅包含知識(shí)圖譜這種網(wǎng)絡(luò),而是更廣義上的網(wǎng)絡(luò)。這兩個(gè)研究方向都是當(dāng)下研究的熱點(diǎn)問(wèn)題,屬于事理圖譜應(yīng)用階段的實(shí)用技術(shù)。
2018年9月10日,HIT-SCIR正式對(duì)外發(fā)布金融事理圖譜V1.0版本,經(jīng)過(guò)近10個(gè)月的潛心研發(fā),HIT-SCIR推出金融事理圖譜V2.0版本,相對(duì)于V1.0版本,V2.0版本進(jìn)行了如下的改進(jìn)。
金融事理圖譜V2.0版本擴(kuò)充了數(shù)據(jù)源,擴(kuò)大了數(shù)據(jù)規(guī)模,增加了事件節(jié)點(diǎn)數(shù)量以及因果關(guān)系數(shù)量,同時(shí)增加了事件上下位關(guān)系以及抽象事件和抽象因果關(guān)系,采用基于BERT+CRF的方法將因果關(guān)系抽取的F值由原來(lái)的59.54%提升到了85.12%。
知識(shí)圖譜在各個(gè)領(lǐng)域精耕細(xì)作,逐漸顯露價(jià)值。知識(shí)表示形式有待突破,推理能力有待提高。統(tǒng)計(jì)腳本學(xué)習(xí)和事件關(guān)系識(shí)別等事理圖譜相關(guān)研究越來(lái)越吸引研究者關(guān)注。以“謂詞性短語(yǔ)”為節(jié)點(diǎn),以事件演化(順承、因果、上下位等關(guān)系)為邊的事理圖譜方興未艾。事理圖譜必將在預(yù)測(cè)、對(duì)話等領(lǐng)域發(fā)揮重要作用,有力地提升人工智能系統(tǒng)的可解釋性。
詳細(xì)論文請(qǐng)參考:https://arxiv.org/pdf/1907.08015.pdf
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。