丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)

本文作者: 我在思考中 2022-01-17 10:40
導(dǎo)語(yǔ):從簡(jiǎn)單推理到復(fù)雜推理。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)


作者 | 維克多

編輯 | 青暮
知識(shí)圖譜蘊(yùn)含豐富的人類先驗(yàn)知識(shí),具有重要的學(xué)術(shù)價(jià)值和廣泛的應(yīng)用前景。知識(shí)圖譜推理作為知識(shí)圖譜領(lǐng)域的核心技術(shù),能夠極大地?cái)U(kuò)展現(xiàn)有知識(shí)的邊界,有力地輔助人類進(jìn)行智能決策。
2021年12月17日,中國(guó)科學(xué)技術(shù)大學(xué)教授,博士生導(dǎo)師,國(guó)家優(yōu)青王杰在 CNCC 2021 “知識(shí)為意,圖譜為形--基于圖機(jī)器學(xué)習(xí)的知識(shí)推理”專題論壇上做了《基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)——從簡(jiǎn)單推理到復(fù)雜推理》的報(bào)告。
在報(bào)告中,王杰結(jié)合知識(shí)圖譜近年來(lái)的研究趨勢(shì)與應(yīng)用場(chǎng)景,聚焦從單一圖譜推理到聯(lián)合外部信息推理、從結(jié)構(gòu)化輸入到自然語(yǔ)言輸入的層次遞進(jìn)的推理場(chǎng)景,介紹基于表示學(xué)習(xí)的知識(shí)圖譜推理方向取得的進(jìn)展。最后,王杰展望了知識(shí)圖譜推理技術(shù)未來(lái)發(fā)展所面臨的若干挑戰(zhàn)和機(jī)遇。
例如,他提到:“當(dāng)前廣泛使用的數(shù)據(jù)集無(wú)法準(zhǔn)確地反映真實(shí)場(chǎng)景模型,現(xiàn)在的模型測(cè)試時(shí)基本采用封閉世界假設(shè),不符合真實(shí)應(yīng)用場(chǎng)景,會(huì)導(dǎo)致本該正確的結(jié)果被判斷為錯(cuò)誤……現(xiàn)有知識(shí)圖譜只涉及文本信息,未來(lái)的發(fā)展趨勢(shì)是擴(kuò)展到多模態(tài)信息。多模態(tài)知識(shí)圖譜依賴于多種模態(tài)數(shù)據(jù)的收集,其中關(guān)鍵問(wèn)題是……”
以下是演講全文,AI科技評(píng)論做了有刪改的整理:
今天的演講題目是《基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)——從簡(jiǎn)單推理到復(fù)雜推理》,分為背景介紹、簡(jiǎn)單推理、復(fù)雜推理、未來(lái)展望等四個(gè)部分。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
知識(shí)圖譜的本質(zhì)是大規(guī)模的語(yǔ)義網(wǎng)絡(luò)知識(shí)庫(kù),表示對(duì)客觀世界實(shí)體的描述。如上圖左下角人物知識(shí)圖所示,每一個(gè)節(jié)點(diǎn)代表一個(gè)人物,邊代表人物之間的關(guān)系。而在計(jì)算機(jī)中,知識(shí)圖譜以三元組的形式存儲(chǔ),包含頭實(shí)體、關(guān)系、尾實(shí)體。
我們總希望得到大型的知識(shí)圖譜,因?yàn)樵谝?guī)模效應(yīng)的作用下,會(huì)給應(yīng)用效果帶來(lái)質(zhì)變。知識(shí)圖譜可以分為兩類,一類是通用知識(shí)圖譜,面向通用領(lǐng)域的百科知識(shí)庫(kù),另一類是領(lǐng)域知識(shí)圖譜,面向特定領(lǐng)域的行業(yè)知識(shí)庫(kù)。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
通用知識(shí)圖譜覆蓋面較廣,但所包含的知識(shí)層級(jí)體系較淺、粒度較粗、精度不高,領(lǐng)域知識(shí)圖譜則相反,其覆蓋面較窄,只面向某個(gè)特定領(lǐng)域,包含的知識(shí)深度和精度往往有更高的標(biāo)準(zhǔn)和質(zhì)量。
知識(shí)圖譜最早可以追溯到60年代的專家系統(tǒng),當(dāng)時(shí)主要是依靠專家知識(shí),通過(guò)人工進(jìn)行構(gòu)建,所以成本較高。經(jīng)過(guò)多年發(fā)展,知識(shí)圖譜逐漸轉(zhuǎn)向自動(dòng)化構(gòu)建,1998年提出的語(yǔ)義網(wǎng)絡(luò)和2006年提出的鏈接數(shù)據(jù)是“自動(dòng)化”發(fā)展的關(guān)鍵節(jié)點(diǎn)。
2012年,谷歌發(fā)布知識(shí)圖譜,并將其應(yīng)用到搜索引擎當(dāng)中。這時(shí)knowledge graph詞匯第一次被明確提出。目前,谷歌、百度等構(gòu)建的知識(shí)圖譜已經(jīng)包含超千億級(jí)別的三元組,其背后所依賴的是大數(shù)據(jù)驅(qū)動(dòng)下的自動(dòng)知識(shí)獲取技術(shù)。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
知識(shí)圖譜屬于典型的交叉技術(shù)領(lǐng)域,包含眾多的技術(shù)要素:存儲(chǔ)、查詢、構(gòu)建、獲取、推理、融合、問(wèn)答、分析等等幾個(gè)方面。在眾多要素中,推理是核心的技術(shù)和任務(wù)。
一方面,知識(shí)圖譜的存儲(chǔ)、查詢、構(gòu)建與獲取,不僅僅是為了能夠描述客觀世界、總結(jié)人類先驗(yàn)知識(shí),更重要是為知識(shí)圖譜推理服務(wù)。
另一方面,知識(shí)圖譜中的技術(shù)和任務(wù)都包含深度語(yǔ)義理解。例如融合技術(shù)中,需要利用推理技術(shù)對(duì)齊不同知識(shí)圖譜的實(shí)體;問(wèn)答技術(shù)中需要推理技術(shù)拓展問(wèn)句的語(yǔ)義;分析技術(shù)中需要推理技術(shù)幫助進(jìn)一步挖掘圖數(shù)據(jù)中的信息。
因此,凡包含深度語(yǔ)義理解的任務(wù)都涉及推理的過(guò)程。而知識(shí)圖譜的推理目標(biāo)是利用知識(shí)圖譜中已經(jīng)存在的關(guān)系或事實(shí)推斷未知的關(guān)系和事實(shí)。換句話說(shuō),就是由已知的一個(gè)或者幾個(gè)判斷,推斷另一個(gè)未知的判斷。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
知識(shí)圖譜的推理有兩種形式:基于規(guī)則的推理、基于表示學(xué)習(xí)的推理。基于規(guī)則的推理是指基于本體邏輯的演繹推理,例如若A屬于B,B屬于C,則A屬于C。這種推理雖然可解釋性強(qiáng),精度高,但需要事先寫清楚規(guī)則,所以在實(shí)際應(yīng)用中不夠靈活。當(dāng)涉及大規(guī)模數(shù)據(jù)時(shí),可以使用統(tǒng)計(jì)方法總結(jié)歸納出規(guī)則,這也稱為歸納式的推理。
基于表示學(xué)習(xí)的推理需要將實(shí)體以及實(shí)體之間的關(guān)系映射到向量空間,然后通過(guò)向量空間的操作進(jìn)行建模邏輯關(guān)系。這種方式易于捕獲隱含的信息,但卻丟失了可解釋性。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
列舉一個(gè)基于表示學(xué)習(xí)的推理的工作原理。上圖中存在兩個(gè)三元組:<中國(guó),首都,北京>;<美國(guó),首都,華盛頓>。將其映射到向量空間之后會(huì)發(fā)現(xiàn),中國(guó)與北京這兩個(gè)向量之間的差值,接近美國(guó)與華盛頓之間的差值。
然后定義一個(gè)函數(shù),希望三元組映射到向量空間之后,頭實(shí)體+關(guān)系的向量表示盡可能接近尾實(shí)體的向量表示。如上圖中的f(h,r,t)函數(shù),既可以是Loss函數(shù)也可以是打分函數(shù)。
打分函數(shù)某種程度上是三元組為真的置信度,如上圖右下角的例子所示,根據(jù)打分值(置信度)確定“英國(guó)的首都是倫敦”。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
進(jìn)一步,根據(jù)輸入,基于表示學(xué)習(xí)的知識(shí)圖譜推理分為簡(jiǎn)單推理和復(fù)雜推理兩類。簡(jiǎn)單推理類似鏈接預(yù)測(cè),根據(jù)知識(shí)圖譜中已有實(shí)體和關(guān)系推理兩個(gè)給定實(shí)體的關(guān)系,其難點(diǎn)在于理解已有實(shí)體和關(guān)系的語(yǔ)義。
復(fù)雜推理相對(duì)于簡(jiǎn)單推理,其輸入更加復(fù)雜。根據(jù)輸入的不同,難點(diǎn)分別在于:
  • 建模關(guān)系間的語(yǔ)義結(jié)構(gòu),給定實(shí)體關(guān)系未在訓(xùn)練模型中出現(xiàn)過(guò)。
  • 建模復(fù)雜的結(jié)構(gòu)化問(wèn)題,包含若干個(gè)一階邏輯。
  • 建模非結(jié)構(gòu)化問(wèn)題,輸入數(shù)據(jù)包含人類口頭語(yǔ)等。



1

簡(jiǎn)單推理最新進(jìn)展
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
直觀理解簡(jiǎn)單推理,例如有一個(gè)頭實(shí)體和一個(gè)尾實(shí)體,然后希望補(bǔ)齊與之對(duì)應(yīng)關(guān)系,從而最大可能讓三元組成立。
還是以人物知識(shí)圖譜為例,已知(訓(xùn)練數(shù)據(jù))“蔣英的丈夫是錢學(xué)森,蔣英的父親是蔣百里”,請(qǐng)問(wèn)錢學(xué)森和蔣百里之間是什么關(guān)系?為了較好解決這一鏈接預(yù)測(cè)問(wèn)題,需要對(duì)知識(shí)圖譜中實(shí)體之間的關(guān)鍵性質(zhì)進(jìn)行建模。
方式有三:語(yǔ)義近似、語(yǔ)義分層、語(yǔ)義融合。例如老虎是哺乳動(dòng)物,老虎和獅子語(yǔ)義相近,就可以推理出獅子是哺乳動(dòng)物;獅子屬于貓科動(dòng)物,貓科動(dòng)物屬于哺乳動(dòng)物,根據(jù)語(yǔ)義分層現(xiàn)象可以推理出獅子是哺乳動(dòng)物;語(yǔ)義融合是指結(jié)合知識(shí)圖譜以及非知識(shí)圖譜的非結(jié)構(gòu)化文本描述,從而捕捉實(shí)體的潛在語(yǔ)義。

語(yǔ)義近似

中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
對(duì)于語(yǔ)義近似,目前的經(jīng)典方法是“基于張量分解的知識(shí)圖譜嵌入模型”,例如CP、RESCAL、ComplEx等等,此類方法的共同點(diǎn)是三元組為真的概率由內(nèi)積定義。其存在的問(wèn)題由上(右)圖所示,在向量空間中相近語(yǔ)義的實(shí)體具有不相近的表示。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
基于上述缺點(diǎn),我們提出“面向張量分解的知識(shí)圖譜嵌入模型的正則項(xiàng)”,其思想在于讓語(yǔ)義相近的實(shí)體表示內(nèi)積盡可能的大,距離盡可能的小。如上(左)圖所示,除了希望尾實(shí)體的向量盡可能落在黃色的虛線上,也希望尾實(shí)體的向量表示盡可能地落在橢圓(紅色區(qū)域)里。
如何做到?添加基于對(duì)偶距離模型的正則項(xiàng),用向量差的2范數(shù)表示原始內(nèi)積。將“2范數(shù)”展開之后,會(huì)發(fā)現(xiàn)這一表達(dá)式也包含了原始內(nèi)積,以及后面兩項(xiàng)2范數(shù)的平方。最后會(huì)得到對(duì)偶誘導(dǎo)正則項(xiàng):由原來(lái)的內(nèi)積+頭實(shí)體2范數(shù)+尾實(shí)體2范數(shù)。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),“對(duì)偶誘導(dǎo)正則項(xiàng)”能夠有效促使相近語(yǔ)義實(shí)體具有相近表示,也可以顯著提升現(xiàn)有模型的推理性能。此外,它的優(yōu)點(diǎn)還在于給出了張量核2-范數(shù)的一個(gè)上界以及矩陣分解問(wèn)題中跡范數(shù)正則的張量推廣。

語(yǔ)義分層

中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
語(yǔ)義分層是廣泛存在的,例如“棕櫚樹是樹”,“北京位于中國(guó)”。其中樹是更高層級(jí),棕櫚樹是更低層級(jí);中國(guó)是更高層級(jí),北京是更低層級(jí)。如果按語(yǔ)義對(duì)實(shí)體進(jìn)行分類,可以分為不同語(yǔ)義層級(jí)的實(shí)體,例如“哺乳動(dòng)物”和“狗”,“移動(dòng)”和“奔跑”;相同語(yǔ)義層級(jí)的實(shí)體,“玫瑰”和“牡丹”,“貨車”和“客車”。
現(xiàn)有建模語(yǔ)義層級(jí)有兩個(gè)傳統(tǒng)工作,利用外部層級(jí)信息輔助建模,在一些特定的數(shù)據(jù)集里,實(shí)體和關(guān)系本身是帶有層級(jí)信息的。這種方法可以幫助理解實(shí)體的語(yǔ)義,但是并不能很好地區(qū)分不同層級(jí)的實(shí)體,最關(guān)鍵的是,并不是所有的數(shù)據(jù)集中都有額外的分層信息。
還有一類方法主要考慮關(guān)系的語(yǔ)義層級(jí),也就是將一個(gè)關(guān)系抽象成若干不同層級(jí)的子關(guān)系的復(fù)合,從而達(dá)到對(duì)語(yǔ)義層級(jí)的建模,但是這類方法需要對(duì)關(guān)系表示進(jìn)行額外的聚類操作,其缺點(diǎn)在于無(wú)法全自動(dòng)地從知識(shí)圖譜中學(xué)到具有層級(jí)性質(zhì)的語(yǔ)義信息。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
為了建模知識(shí)圖譜的語(yǔ)義層級(jí),可以將語(yǔ)義層級(jí)建模成樹結(jié)構(gòu),如上(左)圖所示,樹結(jié)構(gòu)中節(jié)點(diǎn)的深度,能夠反映層級(jí)信息:越靠近根節(jié)點(diǎn)的節(jié)點(diǎn),具有越高的層級(jí);而具有相同深度的不同節(jié)點(diǎn),具有相同的層級(jí)。
進(jìn)一步,可以用極坐標(biāo)建模樹結(jié)構(gòu)。極坐標(biāo)由兩部分組成,半徑坐標(biāo)反映點(diǎn)到原點(diǎn)的距離;角坐標(biāo)可以用來(lái)區(qū)分同心圓上的不同位置。因此可以將點(diǎn)到原點(diǎn)的距離視作到根節(jié)點(diǎn)的距離,半徑坐標(biāo)和角坐標(biāo)就可以分別對(duì)應(yīng)不同層級(jí)和相同層級(jí)的實(shí)體??偠灾?/span>將實(shí)體映射到極坐標(biāo)系中,利用極坐標(biāo)建模語(yǔ)義層級(jí),可以利用模長(zhǎng)( Modulus)和角度( Phase)兩部分進(jìn)行建模 。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
為了建模不同實(shí)體之間的關(guān)系,不同實(shí)體模長(zhǎng)之間的關(guān)系可以建模成伸縮變換,也就是頭實(shí)體的模長(zhǎng)乘以關(guān)系變換(r)得到尾實(shí)體的模長(zhǎng),然后將角度之間的關(guān)系建模為旋轉(zhuǎn)變化,也即頭實(shí)體的角度根據(jù)不同的關(guān)系旋轉(zhuǎn)不同的角度后得到尾實(shí)體的角度。此類建模方式可以定義為上(右)圖中的距離函數(shù)。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
經(jīng)過(guò)實(shí)驗(yàn),此類方法能夠有效區(qū)分實(shí)體的語(yǔ)義層級(jí)。例如上圖的幾個(gè)例子,“CS與AI不同層級(jí)”、“ask與inquire相同層級(jí)”、“D與C不同層級(jí)”都能更清晰地進(jìn)行分割。此外,頭尾實(shí)體層級(jí)相同,實(shí)驗(yàn)證明可以利用角度進(jìn)行區(qū)分。而在單步推理測(cè)試數(shù)據(jù)集上,此類方法已經(jīng)在推理性能上顯著超越其他方法,也被同行評(píng)價(jià)為“基于幾何的方法中表現(xiàn)最佳的模型”。

語(yǔ)義融合

中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
語(yǔ)義融合需要將圖譜與文本描述進(jìn)行結(jié)合,既涉及結(jié)構(gòu)化數(shù)據(jù)也涉及非結(jié)構(gòu)化數(shù)據(jù),目前該領(lǐng)域還在探索?,F(xiàn)有的趨勢(shì)是從知識(shí)嵌入向知識(shí)注入發(fā)展,前者是指?jìng)鹘y(tǒng)的KGE模型,僅從結(jié)構(gòu)化的知識(shí)圖譜中獲得知識(shí),體量龐大的文本數(shù)據(jù)不能被充分利用。
而知識(shí)注入指KGE模型與預(yù)訓(xùn)練模型協(xié)同訓(xùn)練,能夠有效處理非結(jié)構(gòu)化的數(shù)據(jù)。但缺陷在于,會(huì)由于預(yù)訓(xùn)練模型巨大的傳輸量而帶來(lái)高額的計(jì)算成本,甚至成本太大而無(wú)法協(xié)同訓(xùn)練。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
為了解決此問(wèn)題,我們提出Hetero- Learner:融合異質(zhì)知識(shí)的高效率學(xué)習(xí)器,將圖譜結(jié)構(gòu)和文本描述嵌入成向量,并進(jìn)行向量的有機(jī)拼接。經(jīng)過(guò)實(shí)驗(yàn)表明,僅以同類模型 KEPLER3.6%的參數(shù)量取得 Wikidata5M上的SOTA結(jié)果。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
為了進(jìn)一步提升性能,受人類認(rèn)知推理的啟發(fā),我們提出Hetero- Reasoner。該模型方法“模擬”人類,首先根據(jù)推理對(duì)象的含義以及推理對(duì)象之間的聯(lián)系做出判斷和推理((對(duì)應(yīng)Knowledge Learner)),然后從現(xiàn)象中歸納抽象的邏輯規(guī)則來(lái)輔助推理(對(duì)應(yīng)Rule Miner),最后會(huì)回憶和反芻已有的知識(shí)來(lái)加強(qiáng)對(duì)推理和判斷的信心(對(duì)應(yīng)Knowledge Distiller)。整體而言,該模型包括異質(zhì)學(xué)習(xí)器、規(guī)則挖掘器和知識(shí)蒸餾器三個(gè)模塊,能有效地結(jié)合有結(jié)構(gòu)的知識(shí)圖譜數(shù)據(jù)和無(wú)結(jié)構(gòu)的文本數(shù)據(jù)進(jìn)行推理。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
最終,在最近一次KDD CUP 2021 大規(guī)模知識(shí)圖譜比賽的“Link Prediction”賽道榮獲第三名,成為前三名中唯一一支成員均來(lái)自高校的隊(duì)伍。



2

復(fù)雜推理最新進(jìn)展
復(fù)雜推理主要集中在歸納式推理、多步推理、自然語(yǔ)言查詢?nèi)矫娴墓ぷ鳌?/span>
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
歸納式的推理和簡(jiǎn)單推理有類似之處,都是進(jìn)行鏈接預(yù)測(cè)的任務(wù),但是歸納式推理測(cè)試數(shù)據(jù)集的實(shí)體和訓(xùn)練數(shù)據(jù)集的實(shí)體不重合,因此難點(diǎn)在于如何將訓(xùn)練數(shù)據(jù)集的知識(shí)遷移或泛化至測(cè)試數(shù)據(jù)集。
歸納式推理的核心在于學(xué)習(xí)關(guān)系的語(yǔ)義結(jié)構(gòu)。例如上圖左邊(紅樓夢(mèng))和右邊的知識(shí)圖譜中的人物并不重合。但兩者關(guān)系確實(shí)存在一些共同的特點(diǎn)。例如兩者都符合母親、父親、丈夫關(guān)系模式,都可以將其提取與應(yīng)用。
此類建模方式的經(jīng)典方法是基于規(guī)則學(xué)習(xí)的歸納式推理,這是在知識(shí)圖譜統(tǒng)計(jì)、歸納常出現(xiàn)的關(guān)系結(jié)構(gòu)。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
我們?cè)O(shè)計(jì)了另一種歸納模式,即首先將原始圖譜的關(guān)系變?yōu)楣?jié)點(diǎn),然后生成新的圖譜,其中關(guān)系和關(guān)系之間的邊代表兩個(gè)相鄰關(guān)系的連接模式。然后用圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練以關(guān)系為節(jié)點(diǎn)的圖,從而找到相關(guān)特性。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
如上圖所示,此方法在歸納推理性能上顯著超其他方法,相對(duì)于現(xiàn)有的方法提升都在5個(gè)點(diǎn)甚至10個(gè)點(diǎn)左右。

多步推理

復(fù)雜結(jié)構(gòu)化問(wèn)題的輸入對(duì)應(yīng)的復(fù)雜推理形式是多步推理。例如,對(duì)于查詢?nèi)蝿?wù)“列出安徽省內(nèi)為211但非985高校的校長(zhǎng)”,對(duì)于這一任務(wù),可以通過(guò)傳統(tǒng)構(gòu)建計(jì)算圖方法進(jìn)行解決,但會(huì)遇到結(jié)構(gòu)多樣、與或非邏輯運(yùn)算等問(wèn)題,從而帶來(lái)非常高的計(jì)算復(fù)雜度。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
再舉例子:在知識(shí)圖譜中推理得到中國(guó)東部省份的高校,隨著推理步驟的進(jìn)行,實(shí)體的數(shù)目會(huì)從中國(guó)節(jié)點(diǎn)開始,呈指數(shù)級(jí)上升。為了解決這一問(wèn)題,我們提出基于表示學(xué)習(xí)的方法,在適當(dāng)?shù)南蛄靠臻g進(jìn)行推理。
基于表示學(xué)習(xí)的多步推理有兩個(gè)關(guān)鍵的步驟。第一,定義向量空間,第二,在向量空間中定義推理操作。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
具體而言,首先將實(shí)體和實(shí)體的集合映射到向量空間,實(shí)體用幾何圖形或者概率分布進(jìn)行表示,然后在向量空間中通過(guò)相似度比較得到答案,從而避免巨大的計(jì)算開銷;之后,將推理操作定義為實(shí)體集合之間的變換,例如“與”對(duì)應(yīng)實(shí)體集合的交;“或”對(duì)應(yīng)實(shí)體集合的并;“非”對(duì)應(yīng)實(shí)體集合的補(bǔ)。
因此,在基于表示學(xué)習(xí)的多步推理模型中,給定問(wèn)題結(jié)構(gòu),通過(guò)邏輯操作得到最終問(wèn)題表示,然后通過(guò)實(shí)體表示和問(wèn)題表示之間的距離,得到最終問(wèn)題的答案。
一般而言,問(wèn)題答案是實(shí)體的集合,問(wèn)題表示本質(zhì)上是實(shí)體集合的表示。所以如何表示問(wèn)題的集合就變得非常重要。傳統(tǒng)方法是使用“盒子”表示查詢,它雖然可以進(jìn)行邏輯運(yùn)算,但難以建?!胺恰标P(guān)系。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
我們提出ConeE, 二維錐(Cone)構(gòu)成的向量空間。將實(shí)體定義為幅角為0,將集合定義為幅角不為0。由于錐體具有封閉性,所以容易進(jìn)行“與或非”操作。目前,此項(xiàng)工作在多跳推理性能上顯著超越其他方法。

自然語(yǔ)言查詢

自然語(yǔ)言查詢的難點(diǎn)在建模非結(jié)構(gòu)化問(wèn)題,其任務(wù)針對(duì)給定的自然語(yǔ)言問(wèn)題作為輸入(區(qū)別于結(jié)構(gòu)化查詢),通過(guò)知識(shí)圖譜多跳推理的方式給出答案。但隨著問(wèn)題跳數(shù)增加,候選實(shí)體數(shù)量呈指數(shù)增長(zhǎng)?,F(xiàn)有的GNN方法通過(guò)子圖裁剪以降低候選實(shí)體數(shù)量但犧牲了正確答案的召回率。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
為此,受人類認(rèn)知理論啟發(fā),我們提出兩階段方法。第一階段對(duì)應(yīng)系統(tǒng)1(無(wú)意識(shí)、直覺的、快思考),快速篩選,通過(guò)query-answer語(yǔ)義匹配打分;第二階段對(duì)應(yīng)系統(tǒng)2(有意識(shí)、邏輯的、慢思考),通過(guò)貝葉斯網(wǎng)絡(luò),基于推理路徑的打分。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
在問(wèn)題“John Derek 參演電影的編輯有哪些?”中,運(yùn)用我們?cè)O(shè)計(jì)方法的結(jié)果如所示,留下的實(shí)體相對(duì)而言數(shù)量比較少,而且置信度較高。進(jìn)一步實(shí)驗(yàn)表明,我們的方法在多跳數(shù)據(jù)集上性能顯著超越之前的SOTA方法。



3

未來(lái)展望
在知識(shí)圖譜上進(jìn)行推理,除了基于表示學(xué)習(xí)的方法之外,還有一種基于規(guī)則的方法。雖然基于表示學(xué)習(xí)相比規(guī)則推理的方法,可以更好地建模知識(shí)圖譜中的潛在語(yǔ)義信息,但在真實(shí)的應(yīng)用場(chǎng)景中,規(guī)則推理往往更受歡迎。原因是:它的精度高,可解釋性強(qiáng)。因此,接下來(lái),學(xué)術(shù)界的目標(biāo)應(yīng)該是使表示學(xué)習(xí)推理模型在真實(shí)場(chǎng)景下的性能與規(guī)則推理模型媲美。
另一方面,學(xué)術(shù)界模型評(píng)測(cè)應(yīng)更加全面高效,以指導(dǎo)模型的設(shè)計(jì)使之更契合真實(shí)場(chǎng)景的需求。下面我從數(shù)據(jù)集和評(píng)測(cè)指標(biāo)兩方面進(jìn)行討論。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
首先,當(dāng)前廣泛使用的數(shù)據(jù)集無(wú)法準(zhǔn)確地反映真實(shí)場(chǎng)景模型,現(xiàn)有的模型測(cè)試時(shí)基本采用封閉世界假設(shè),即不在知識(shí)圖譜中的三元組都是錯(cuò)誤的,這顯然不符合真實(shí)應(yīng)用場(chǎng)景,因此會(huì)導(dǎo)致本該正確的結(jié)果被判斷為錯(cuò)誤。所以,如何用“候選數(shù)據(jù)集”的性能客觀反映模型性能,需要進(jìn)一步探索。
中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)
再者,當(dāng)前廣泛使用的評(píng)測(cè)指標(biāo)無(wú)法全面評(píng)估模型的優(yōu)劣。例如,測(cè)試集中正確三元組的排名越高,模型在這些評(píng)測(cè)指標(biāo)上的表現(xiàn)就越好。然而,這是不全面的。此外,在封閉世界假設(shè)下,一些本應(yīng)性能較好的模型在這些指標(biāo)下也可能會(huì)有較差的表現(xiàn)。
現(xiàn)有知識(shí)圖譜只涉及文本信息,未來(lái)發(fā)展趨勢(shì)是擴(kuò)展到多模態(tài)信息。多模態(tài)知識(shí)圖譜的構(gòu)建,依賴于多種模態(tài)數(shù)據(jù)的收集,其中關(guān)鍵問(wèn)題是:如何進(jìn)行不同模態(tài)數(shù)據(jù)之間的對(duì)齊。此外,也需要高性能的數(shù)據(jù)庫(kù),幫助存儲(chǔ)多模態(tài)數(shù)據(jù),目前這方面國(guó)內(nèi)已經(jīng)有企業(yè)開始攻關(guān)。

中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)

知識(shí)圖譜和預(yù)訓(xùn)練語(yǔ)言模型的結(jié)合也是接下來(lái)的發(fā)展趨勢(shì)。預(yù)訓(xùn)練語(yǔ)言模型已經(jīng)比較成熟,但在涉及特定領(lǐng)域的知識(shí)或者常識(shí)時(shí),表現(xiàn)并不令人滿意。如何利用知識(shí)圖譜增強(qiáng)預(yù)訓(xùn)練語(yǔ)言模型,或者怎樣用預(yù)訓(xùn)練語(yǔ)言模型幫助更好地在知識(shí)圖譜上進(jìn)行推理,也是接下來(lái)需要重點(diǎn)關(guān)注的方向。
最后,知識(shí)圖譜與對(duì)話場(chǎng)景的結(jié)合也是我所期待的。用時(shí)序知識(shí)圖譜表示對(duì)話狀態(tài),相比傳統(tǒng)鍵值對(duì)的結(jié)構(gòu),可以更完整地跟蹤表示對(duì)話的狀態(tài)以及變化。

推薦閱讀

論智三易,串聯(lián)通訊,貫通邊緣,演進(jìn)認(rèn)知,匯于機(jī)器:聽五位IEEE Fellow暢談AI未來(lái) | GAIR 2021

2021-12-25

中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)

CNCC 2021重磅啟幕:與John Hopcroft、孫凝暉等數(shù)十位頂級(jí)學(xué)者,共饗計(jì)算機(jī)年度盛會(huì)

2021-12-17

中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)

工程院院士孫凝暉:計(jì)算機(jī)系統(tǒng)的演進(jìn)規(guī)律,從求極致到求通用|CNCC 2021

2021-12-23

中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)

雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

中科大王杰教授:基于表示學(xué)習(xí)的知識(shí)圖譜推理技術(shù)

分享:
相關(guān)文章

運(yùn)營(yíng)

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)