丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給MrBear
發(fā)送

0

2020年,知識(shí)圖譜都有哪些研究風(fēng)向?

本文作者: MrBear 2020-07-28 15:58
導(dǎo)語:知識(shí)驅(qū)動(dòng)的人工智能,少不了知識(shí)圖譜。

隨著認(rèn)知智能走進(jìn)了人們的視野,知識(shí)圖譜的重要性便日漸凸顯。在今年的自然語言處理頂會(huì) ACL 2020 上,自然語言知識(shí)圖譜領(lǐng)域發(fā)生了巨大的革新。ACL 作為 NLP 領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議,無疑能夠很好地呈現(xiàn)該研究方向的風(fēng)向標(biāo)。

本文作者M(jìn)ichael Galkin(計(jì)算機(jī)科學(xué)家,主要研究方向?yàn)橹R(shí)圖譜)從問答系統(tǒng)、知識(shí)圖譜嵌入、自然語言生成、人工智能對話系統(tǒng)、信息提取等方面總結(jié)了 ACL 2020 上知識(shí)圖譜最新工作。    

ACL 2020 完全采取了在線會(huì)議的模式。想要舉辦這么龐大的在線活動(dòng),讓來自多個(gè)時(shí)區(qū)的參會(huì)者共同參與其中,并展示超過 700 篇論文是十分困難的。不過在所有講者、參會(huì)者、組織者的努力下,這屆大會(huì)得以圓滿進(jìn)行。

那么與 ACL 2019 相比,知識(shí)圖譜和自然語言處理領(lǐng)域發(fā)生了大的變化嗎?

答案是肯定的!我們將今年該領(lǐng)域的進(jìn)展概括為:

知識(shí)圖譜展現(xiàn)了更好地揭示其它非結(jié)構(gòu)化數(shù)據(jù)中的高階相關(guān)性的能力。

結(jié)構(gòu)化數(shù)據(jù)上的問答系統(tǒng)

在該任務(wù)中,研究者們面向 SPARQL 的知識(shí)圖譜或 SQL 數(shù)據(jù)庫這樣的結(jié)構(gòu)化數(shù)據(jù)源提出了問題。

在今年的 ACL 大會(huì)上,我們可以看到越來越多考慮復(fù)雜(也被稱為多跳)問題的工作。

舉例而言,Saxena 等人的論文「Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings」(https://www.aclweb.org/anthology/2020.acl-main.412.pdf)在研究復(fù)雜知識(shí)圖譜問答任務(wù)時(shí),將知識(shí)圖譜嵌入與問題嵌入向量耦合在它們的 EmbedKGQA 系統(tǒng)中。

首先,作者通過一些算法(本文作者選用了論文「Complex Embeddings for Simple Link Prediction 」中提出的算法)對底層知識(shí)圖譜進(jìn)行嵌入,從而使每個(gè)實(shí)體與關(guān)系與一個(gè)特定的向量相關(guān)聯(lián)。在某些情況下,作者凍結(jié)這些向量,或者根據(jù)知識(shí)圖譜的規(guī)模持續(xù)調(diào)優(yōu)。

其次,作者使用 RoBERTA 模型對輸入進(jìn)行編碼(最后一層中為 [CLS] ),并經(jīng)過 4 個(gè)全連接層處理,我們希望通過這種方式將問題投影到復(fù)雜的空間中。

而關(guān)鍵的部分在于評(píng)分函數(shù),其中作者采用知識(shí)圖譜嵌入的框架,并且構(gòu)建了一個(gè)(頭實(shí)體,問題,候選實(shí)體)三元組。這里的評(píng)分函數(shù)與 ComplEx 算法使用的一樣,頭實(shí)體是問題的主實(shí)體,問題被當(dāng)做三元組中的關(guān)系,候選實(shí)體要么是小型知識(shí)圖譜中的全部實(shí)體,要么是頭實(shí)體周圍 2 跳以內(nèi)的子圖(當(dāng)需要剪枝時(shí))。這確實(shí)與典型的用于訓(xùn)練知識(shí)圖譜嵌入的「1-N」評(píng)分機(jī)制相類似。通過計(jì)算并閾值化問題嵌入 h_q 和每個(gè)關(guān)系嵌入 h_r 之間的點(diǎn)積(h_q,h_r),可以進(jìn)一步對候選空間進(jìn)行剪枝。

在 MetaQA  和 WebQuestionsSP 上進(jìn)行的實(shí)驗(yàn)中,作者探索了一種特定的場景:隨機(jī)刪除 50% 的邊構(gòu)造一個(gè)不完整的知識(shí)圖譜,從而使系統(tǒng)必須學(xué)會(huì)推理出這些缺失的鏈接。在知識(shí)圖譜完整的場景下,EmbedKGQA 與 PullNet 性能相當(dāng)(在 3 跳問題上性能稍優(yōu)),在 Hits@1 的絕對得分上比不使用額外的文本增強(qiáng)知識(shí)圖譜的基線高出 10-40%。

即使如此,研究 EmbedKGQA 如何處理需要聚合或具有多個(gè)具體實(shí)體的問題,還是很有趣的。

2020年,知識(shí)圖譜都有哪些研究風(fēng)向?

圖 1:EmbedKGQA 架構(gòu)示意圖。

另一方面,Lan 等人在論文「Query Graph Generation for Answering Multi-hop Complex Questions from Knowledge Bases」(https://www.aclweb.org/anthology/2020.acl-main.91.pdf)中提出使用迭代的基于強(qiáng)化學(xué)習(xí)的(知識(shí)圖譜嵌入無關(guān))查詢生成方法。基于通過一些實(shí)體鏈接(作者通過谷歌知識(shí)圖譜 API 連接到 FreeBase 獲得)得到的主題實(shí)體,作者提出了應(yīng)用于種子實(shí)體的三種操作,即「擴(kuò)展」(extend)、「聯(lián)系」(connect)、「聚合」(aggregate),通過以上三種操作來構(gòu)建一個(gè)查詢模式。自然而然地,這些操作使其能夠通過 min/max 聚合函數(shù)實(shí)現(xiàn)復(fù)雜的多跳模式。

在每一步中,作者使用集束搜索(beam search)保留 K 個(gè)最佳的模式,他們?yōu)槊總€(gè)圖派生出一個(gè) 7 維特征向量,并將該向量輸入給帶有 softmax 的前饋網(wǎng)絡(luò),從而對這些模式進(jìn)行排序。在該模型中,被納入查詢圖的實(shí)體和關(guān)系的表面形式(surface form)被線性化處理后與輸入問題相連接,然后輸入給 BERT,從而在最后一層得到 [CLS] 的表征(是 7 維特征之一)。

作者在 ComplexWebQuestions、WebQuestionsSP、ComplexQuestions 上測試了該方法,實(shí)驗(yàn)表明該模型的性能顯著超過了對比基線。模型簡化實(shí)驗(yàn)(又稱消融實(shí)驗(yàn),ablation study)說明,「擴(kuò)展」、「聯(lián)系」、「聚合」三種操作是十分重要的。令人驚訝的是:這是一篇短文!

我向大家隆重推薦這篇論文,這是一篇很優(yōu)秀的短文示例,它傳達(dá)了主要的思想,展示了實(shí)驗(yàn)過程和結(jié)果,通過模型簡化實(shí)驗(yàn)說明了方法的有效性。2020年,知識(shí)圖譜都有哪些研究風(fēng)向?

圖 2:「Query Graph Generation for Answering Multi-hop Complex Questions from Knowledge Bases」中擴(kuò)展、聯(lián)系、聚合三種操作的示意圖。

結(jié)構(gòu)化問答系統(tǒng)還包含在 SQL 表上的語義解析,許多新的復(fù)雜數(shù)據(jù)集推動(dòng)了 SQLandia 的研究。

值得一提的是,Wang 等人的論文「RAT-SQL: Relation-Aware Schema Encoding and Linking for Text-to-SQL Parsers」(https://www.aclweb.org/anthology/2020.acl-main.677.pdf)提出了一種面向關(guān)系的 Transformer「RAT-SQL」。為了編碼數(shù)據(jù)庫模式,他們定義了列和表之間顯式的邊。作者還定義了初始的數(shù)據(jù)庫模式和值的連接,從而獲得候選的列和表。此外,列、表,以及問題詞例將被一同送入改良后的自注意力層。最后,樹結(jié)構(gòu)的解碼器會(huì)構(gòu)建一個(gè) SQL 查詢。

當(dāng)使用 BERT 對問題詞例的嵌入進(jìn)行初始化時(shí),RAT-SQL 在Spider 任務(wù)上取得了顯著的性能提升。

       2020年,知識(shí)圖譜都有哪些研究風(fēng)向?      

圖 3:模式編碼器中的 RAT 層示意圖。

 

通常,在與一個(gè)語義解析系統(tǒng)交互時(shí),我們往往會(huì)想要快速地指出或修正解析器的小錯(cuò)誤。Elgohary 等人在論文「Speak to your Parser: Interactive Text-to-SQL with Natural Language Feedback」()中解決了該問題,并發(fā)布了 SPLASH數(shù)據(jù)集,旨在通過自然語言反饋糾正 SQL 解析器的錯(cuò)誤。這種糾錯(cuò)的場景與對話式 test2SQL 任務(wù)不同,所以即使目前性能最優(yōu)的模型(如 EditSQL)在糾錯(cuò)任務(wù)中與人類標(biāo)注者的性能也存在著很大的差距(SOTA 模型的準(zhǔn)確率為 25%,而人類標(biāo)注者為 81%)。

在相同的任務(wù)中,Zeng 等人在論文「PHOTON: A Robust Cross-Domain Text-to-SQL System」(https://www.aclweb.org/anthology/2020.acl-demos.24.pdf)中提出了 Photon,這是一個(gè)相當(dāng)成熟的可以執(zhí)行查詢糾錯(cuò)任務(wù)的「text-to-SQL」系統(tǒng)。

       2020年,知識(shí)圖譜都有哪些研究風(fēng)向?      

圖 4:PHOTON 系統(tǒng)示意圖。

知識(shí)圖譜嵌入:雙曲和超關(guān)系知識(shí)圖譜

雙曲空間是機(jī)器學(xué)習(xí)領(lǐng)域中最近很活躍的話題之一。簡而言之,在一個(gè)雙曲空間中,得益于其特性,我們可以在使用更少的維度的同時(shí),更為高效地表征層次和樹狀結(jié)構(gòu)。

       2020年,知識(shí)圖譜都有哪些研究風(fēng)向?      

圖 5:將點(diǎn) x 處的正切空間映射到雙曲流形上。

在這一目標(biāo)的驅(qū)使下,Chami 等人在論文「Low-Dimensional Hyperbolic Knowledge Graph Embeddings」(https://www.aclweb.org/anthology/2020.acl-main.617.pdf)中提出了 AttH,這是一種使用旋轉(zhuǎn)、反射、平移變換對知識(shí)圖譜中的邏輯和層次模式進(jìn)行建模的雙曲知識(shí)圖譜嵌入算法。「Att」指的是應(yīng)用于旋轉(zhuǎn)和反射后的向量的雙曲注意力。

為了避開不穩(wěn)定的黎曼優(yōu)化,作者使用了正切空間,d 維龐加萊球上的所有點(diǎn)都可以映射到其中。在這種復(fù)雜的場景下,每種關(guān)系都不僅僅與一個(gè)向量有關(guān),還與描述特定關(guān)系的反射和旋轉(zhuǎn)的參數(shù)有關(guān)。盡管如此,在真實(shí)世界的知識(shí)圖譜中 R<<V,因此總開銷也不會(huì)過高。

在實(shí)驗(yàn)中,AttH 在 WN18RR 和 Yago 3-10 上的表現(xiàn)十分優(yōu)異,這些數(shù)據(jù)集展現(xiàn)出了某些層次化的結(jié)構(gòu),AttH 在 FB15k-237 數(shù)據(jù)集上的性能提升就較小。更重要的是,在真實(shí)的復(fù)雜場景下,與現(xiàn)有的 32 維模型相比,僅僅 32 維的 AttH 就展現(xiàn)出了巨大的性能提升。此外,在 WN18RR 和 FB15k-237 數(shù)據(jù)集上,32 維 AttH 的得分僅僅比當(dāng)前性能最優(yōu)的 500 維嵌入模型低 0.02-0.03 個(gè) MRR。模型簡化實(shí)驗(yàn)的結(jié)果說明引入可學(xué)習(xí)的曲率是十分重要的,而與本文最接近的工作「Multi-relational Poincaré Graph Embeddings」,則使用了固定的曲率。

在圖表征學(xué)習(xí)領(lǐng)域,另一個(gè)日漸凸顯的趨勢是:不僅僅局限于簡單的由三元組組成的知識(shí)圖譜,進(jìn)一步學(xué)習(xí)更復(fù)雜的超關(guān)系知識(shí)圖譜,例如 Rosso 等人在論文「Beyond Triplets: Hyper-Relational Knowledge Graph Embedding for Link Prediction」(https://exascale.info/assets/pdf/rosso2020www.pdf)中所做的工作。此時(shí),每個(gè)三元組可能還包含一組「鍵-值」屬性對,它們給出了三元組在各種上下文中正確性的細(xì)粒度細(xì)節(jié)信息。實(shí)際上,Wikidata 在「Wikidata Statement」模型中就采用了超關(guān)系模型,其中屬性被稱為「限定符」(qualifier)。需要注意是,不要將模型與生成冗余謂詞的 n 元事實(shí)以及超圖弄混。也就是說,如果你只在三元組層面上使用 Wikidata,那么你將損失很多的信息。

       2020年,知識(shí)圖譜都有哪些研究風(fēng)向?      

圖 6:超關(guān)系事實(shí)與事實(shí)的 N 元表征。

Guan 等人在論文「NeuInfer: Knowledge Inference on N-ary Facts」(https://www.aclweb.org/anthology/2020.acl-main.546.pdf)中,并不想丟失 Wikidata 中的大量三元組之外的信息,提出了一種學(xué)習(xí)超關(guān)系知識(shí)圖譜嵌入的方法。

NeuInfer 旨在計(jì)算一個(gè)超關(guān)系事實(shí)的正確性與兼容性得分。首先,作者將(h,r,t)嵌入輸入一個(gè)全連接網(wǎng)絡(luò)(FCN),從而估計(jì)該三元組的似然度(正確性)。接著,對于每個(gè)鍵值對,作者構(gòu)建了一個(gè)五元組(h,r,t,k,v),然后將其輸入到另一組全連接網(wǎng)絡(luò)中。當(dāng)有了 m 對鍵值對時(shí),構(gòu)造出的 m 個(gè)向量會(huì)經(jīng)過最小池化處理,最終得到的結(jié)果代表兼容性得分,即這些限定符與主要的三元組的共存情況。最后,作者使用了這兩種得分的加權(quán)求和來得到最終得分。

作者在標(biāo)準(zhǔn)的對比基準(zhǔn)測試任務(wù) JF17K(從 Freebase 中抽取得到)和 WikiPeople 上測試了 NeuInfer,并展示了在 JF17K 任務(wù)中,在預(yù)測頭實(shí)體、尾實(shí)體、屬性值時(shí),該模型相較于 NaLP 模型取得的顯著提升。

       2020年,知識(shí)圖譜都有哪些研究風(fēng)向?      

圖 7:NruInfer 的正確性與兼容性融合框架。

下面,我們將討論發(fā)表在 ACL 2019 上的知識(shí)圖譜嵌入算法的可復(fù)現(xiàn)性。

Sun、Vashishth、Sanyal 等人(https://www.aclweb.org/anthology/2020.acl-main.489.pdf)發(fā)現(xiàn),一些近期發(fā)布的知識(shí)圖譜嵌入模型聲稱它們得到了目前最先進(jìn)的效果,但是它們存在測試集泄露問題,或者在經(jīng)過了為正確的三元組評(píng)分的 ReLU 激活函數(shù)后會(huì)出現(xiàn)許多值為零的神經(jīng)元。此外,他們還說明了,性能度量得分(例如 Hits@K 和 MRR)取決于正確三元組在采樣的負(fù)樣本中的位置(實(shí)際上正確三元組不應(yīng)該出現(xiàn)在負(fù)樣本中)。

另一方面,目前存在的性能很強(qiáng)的對比基線在任何位置的表現(xiàn)都是一樣的。作者要做的就是使用評(píng)估協(xié)議,將一個(gè)有效的三元組隨機(jī)放置在否定的位置上。與此同時(shí),使用將一個(gè)正確三元組放置在負(fù)樣本中隨機(jī)位置上的評(píng)估協(xié)議。

       2020年,知識(shí)圖譜都有哪些研究風(fēng)向?      

圖 8:重新評(píng)估知識(shí)圖譜補(bǔ)全方法。

本文作者的團(tuán)隊(duì)也在發(fā)表的另一篇題為「Bringing Light Into the Dark: A Large-scale Evaluation of Knowledge Graph Embedding Models Under a Unified Framework」(https://arxiv.org/pdf/2006.13365)的論文中,討論了這一問題。

他們花費(fèi)了逾 21,000 GPU 小時(shí)進(jìn)行了超過 65,000 次實(shí)驗(yàn),評(píng)估了 19 種模型。在這些模型中,最早的有 2011 年首次發(fā)布的 RESCAL,最新的有 2019 年發(fā)標(biāo)的 RotatE 和 TuckER。他們嘗試了 5 種損失函數(shù)以及各種包含/不包含負(fù)采樣的訓(xùn)練策略,并且考慮了許多很重要的超參數(shù)。我們也向社區(qū)公開了所有模型的最佳超參數(shù)。此外,他們發(fā)布了 PyKEEN 1.0(https://github.com/pykeen/pykeen),這是一個(gè)用于訓(xùn)練知識(shí)圖譜嵌入模型并進(jìn)行對比實(shí)驗(yàn)的 PyTorch 程序庫。

我建議讀者通讀 Sachan 的論文「Knowledge Graph Embedding Compression」(https://www.aclweb.org/anthology/2020.acl-main.238.pdf),他們研究了通過離散化技術(shù)對知識(shí)圖譜實(shí)體嵌入進(jìn)行壓縮。例如,「Barack Obama」會(huì)被編碼為「2-1-3-3」而不是一個(gè) 200 維的 float32 格式的向量,「Mihcelle Obama」則會(huì)被編碼為「2-1-3-2」。也就是說,你僅僅需要一個(gè)長度為 D、取值范圍為 K 的向量(在本例中,D=4,K=3)。為了進(jìn)行離散化,「tempered softmax」是一種較好的實(shí)現(xiàn)方式。

作者建議使用雙向 LSTM 作為將 KD 編碼轉(zhuǎn)化回 N 維浮點(diǎn)向量的反函數(shù)。實(shí)驗(yàn)結(jié)果令人驚訝,在 FB15K-237 和 WN18RR 上的壓縮率達(dá)到了 100-1000 倍,而在進(jìn)行推理(將 KD 編碼解碼回去)時(shí)只會(huì)產(chǎn)生微笑(最多為 2%MRR) 的性能下降,計(jì)算開銷也很小。我建議大家重新思考一下現(xiàn)在的知識(shí)圖譜嵌入流程(尤其是在生產(chǎn)場景下)。例如,通過 PyTorch-BigGraph獲取的 78M Wikidata 實(shí)體的 200 維嵌入需要 1100GB 的存儲(chǔ)空間。試想一下,僅僅壓縮 100 倍會(huì)是什么樣子。

以下是一些對流行的知識(shí)圖譜嵌入模型的改進(jìn)工作:

  • Tang 等人(https://www.aclweb.org/anthology/2020.acl-main.241.pdf)通過正交關(guān)系變換將 RotatE 從二維旋轉(zhuǎn)泛化到了高維空間中,該模型在 1-N 和 N-N 關(guān)系上的性能有所提升。

  • Xu 等人(https://www.aclweb.org/anthology/2020.acl-main.358.pdf)通過把密集向量分到 K 個(gè)組內(nèi),將雙線性模型泛化到多線性場景下。他們說明了當(dāng) K=1 時(shí),該方法與 DisMult差不多,當(dāng) K=2 時(shí),該方法會(huì)減化為 ComplEx和 HolE方法,作者還測試了 K=4 和 K=8 的情況。

  • Xie 等人(https://www.aclweb.org/anthology/2020.acl-main.526.pdf)通過將標(biāo)準(zhǔn)的卷積核替換為計(jì)算機(jī)視覺領(lǐng)域著名的 Inception網(wǎng)絡(luò)中的卷積核從而擴(kuò)展了 ConvE。

  • Nguyen 等人(https://www.aclweb.org/anthology/2020.acl-main.313.pdf)將自注意力類的編碼器以及一個(gè)卷積神經(jīng)網(wǎng)絡(luò)解碼器應(yīng)用于三元組分類以及個(gè)性化搜索任務(wù)。

從數(shù)據(jù)到文本的自然語言生成:準(zhǔn)備 Transformer

隨著知識(shí)圖譜(更廣義地說是結(jié)構(gòu)化數(shù)據(jù))在 2020 年被廣泛應(yīng)用于 NLP 領(lǐng)域,我們可以看到大量利用一系列 RDF 三元組/AMR 圖/一系列表單元的自然語言生成(NLG)方法,它們可以生成說明或問題等連貫的人類可讀的文本。

       2020年,知識(shí)圖譜都有哪些研究風(fēng)向?      

圖 9:WebNLG 挑戰(zhàn)示意圖:源數(shù)據(jù)為 RDF 圖,目標(biāo)輸出是一個(gè)圖的文本描述。

此外,當(dāng)前的各種 RDF-to-text 方法僅僅在 WebNLG 2017 上進(jìn)行了評(píng)價(jià),然而新一輪的條挑戰(zhàn)——WebNLG 2020(https://webnlg-challenge.loria.fr/challenge_2020/)已經(jīng)到來,如果你是一名自然語言生成研究人員,請參與到這項(xiàng)新的挑戰(zhàn)中。

下面這條 Dmitry Lepikhin 的推特很好地概括了今年 NLG 領(lǐng)域的發(fā)展趨勢:

       2020年,知識(shí)圖譜都有哪些研究風(fēng)向?      

圖 10:今年 NLG 領(lǐng)域的發(fā)展趨勢

我們需要設(shè)計(jì)復(fù)雜的規(guī)劃器和執(zhí)行器嗎?需要使用結(jié)構(gòu)化的對齊技術(shù)嗎?實(shí)際上,使用優(yōu)秀的預(yù)訓(xùn)練語言模型就可以得到不錯(cuò)的效果。

事實(shí)上,加入預(yù)訓(xùn)練的語言模型并將一些示例輸入給它確實(shí)是有效的。Chen 等人在論文「Few-Shot NLG with Pre-Trained Language Model」(https://www.aclweb.org/anthology/2020.acl-main.18.pdf)中,使用一些表中的信息以及 GPT-2 解碼器說明了這一現(xiàn)象。他們首次將表單元輸入給了一個(gè)可學(xué)習(xí)的 LSTM 編碼器,從而得到拷貝機(jī)制的隱藏狀態(tài)。另一方面,輸入 GPT-2 的文本使用了凍結(jié)的權(quán)重。這種拷貝機(jī)制有助于保留表單元中的稀有詞例。作者在 WikiBio 上進(jìn)行的實(shí)驗(yàn)表明,僅僅使用 200 個(gè)訓(xùn)練示例就足以生成比復(fù)雜的強(qiáng)對比基線更好的文本。

2020年,知識(shí)圖譜都有哪些研究風(fēng)向?

圖 11:預(yù)訓(xùn)練語言模型在 NLG 任務(wù)中的應(yīng)用。

同樣是使用表數(shù)據(jù),Chen 等人在論文「Logical Natural Language Generation from Open-Domain Tables」(https://www.aclweb.org/anthology/2020.acl-main.708.pdf)中構(gòu)建了一個(gè)新的數(shù)據(jù)集 LogicNLG,它需要在標(biāo)準(zhǔn)的文本生成方法的基礎(chǔ)上使用額外的邏輯。例如,我們需要使用一些比較和計(jì)數(shù)操作來納入「1 more gold medal」或「most gold medals」等部分,這些部分會(huì)使得生成的文本更加自然和生動(dòng)。用于實(shí)驗(yàn)數(shù)據(jù)集的對比基線使用了預(yù)訓(xùn)練的 GPT-2 和 BERT,但似乎在這個(gè)任務(wù)上的語言模型仍然還有很大的提升空間。

Song 等人在論文「Structural Information Preserving for Graph-to-Text Generation」(https://www.aclweb.org/anthology/2020.acl-main.712.pdf)中,應(yīng)用了一個(gè)稍加修改的 Transformer 編碼器,它顯式地處理了表面形式的關(guān)系。模型的輸入就是一個(gè)線性化的圖(你可以通過深度優(yōu)先搜索 DFS 等方式構(gòu)建)。解碼器并沒有對 Transformer 做任何修改。該方法關(guān)鍵的部分在于向標(biāo)準(zhǔn)的語言模型損失中添加了兩種自編碼損失,它們是專門為了捕獲與語言化圖的結(jié)構(gòu)而設(shè)計(jì)的。第一個(gè)損失重建了三元關(guān)系,另一個(gè)損失則重建了線性化輸入圖的節(jié)點(diǎn)和連邊的標(biāo)簽。在 AMR 和 RDF 圖(WebNLG)上進(jìn)行的實(shí)驗(yàn)說明,僅僅加入這兩種損失就可以在 BLEU 指標(biāo)上提升 2 個(gè)點(diǎn)。

2020年,知識(shí)圖譜都有哪些研究風(fēng)向?

圖 12:「Structural Information Preserving for Graph-to-Text Generation」使用多視圖自編碼損失進(jìn)行訓(xùn)練。

在這里,我想勸大家:每個(gè)人都應(yīng)該停止使用 BLEU 評(píng)價(jià) NLG 的質(zhì)量(https://www.aclweb.org/anthology/2020.acl-main.448.pdf)。ACL 2020 的最佳論文提名獎(jiǎng)獲得者也是這么認(rèn)為的。WebNLG 2020 的組織者也非常贊同這一觀點(diǎn),他們在經(jīng)典的度量標(biāo)準(zhǔn)之外,正式地加入了 chrF++ 和 BertScore 兩種度量標(biāo)準(zhǔn)。此外,在 ACL 2020 上,研究人員提出了一種新的度量標(biāo)準(zhǔn) BLEURT(https://www.aclweb.org/anthology/2020.acl-main.704.pdf),它與人類的判斷更相符。

盡管如此,Zhao 等人在論文「Bridging the Structural Gap Between Encoding and Decoding for Data-To-Text Generation」(https://www.aclweb.org/anthology/2020.acl-main.224.pdf)中提出了一種「編碼器-規(guī)劃器-解碼器」模型 DualEnc。首先,他們對輸入圖進(jìn)行預(yù)處理,從而將某種關(guān)系變換為一個(gè)顯式的節(jié)點(diǎn)。這樣一來,該節(jié)點(diǎn)就會(huì)包含一些有標(biāo)簽的邊「s->p, p->s, p->o, o->p」。接著,他們通過 R-GCN 對該圖進(jìn)行編碼,從而得到實(shí)體和關(guān)系的嵌入。他們還是用另一個(gè)考慮了額外的特征的 R-GCN 對同一個(gè)圖進(jìn)行編碼,從而說明某種關(guān)系是否已經(jīng)被利用了。他們通過以下的方式構(gòu)建內(nèi)容規(guī)劃:當(dāng)存在未訪問的關(guān)系時(shí),softmax 選擇最可能的關(guān)系,然后將該關(guān)系添加到內(nèi)容規(guī)劃中。一旦序列準(zhǔn)備好了,它就被擴(kuò)展為這些關(guān)系的主語和賓語。最后,通過 LSTM 對生成的序列進(jìn)行編碼。他們將圖編碼和規(guī)劃編碼輸入解碼器,從而生成輸出結(jié)果。

實(shí)驗(yàn)結(jié)果表明:(1)DualEnc 在構(gòu)建內(nèi)容規(guī)劃時(shí),在未見過的測試集上有很好的泛化效果(2)文本生成質(zhì)量比直接使用 Transformer 更高(3)規(guī)劃階段的速度提升很大,2019 年最佳的模型需要 250 秒才能處理一個(gè)「7-三元組」實(shí)例,而 DualEnc 在 10 秒中就可以處理 4,928 個(gè)示例。

       2020年,知識(shí)圖譜都有哪些研究風(fēng)向?

圖 13:DualEnc 模型架構(gòu)示意圖。

最后,在摘要生成領(lǐng)域中,Huang 等人在論文「Knowledge Graph-Augmented Abstractive Summarization with Semantic-Driven Cloze Reward」(https://www.aclweb.org/anthology/2020.acl-main.457.pdf)中提出了 ASGARD,利用根據(jù)某個(gè)文檔構(gòu)建的知識(shí)圖譜改進(jìn)了文本生成過程。

       2020年,知識(shí)圖譜都有哪些研究風(fēng)向?      

圖 14:帶有文檔級(jí)圖編碼的 ASGARD 框架示意圖。

具體而言,編碼器由兩部分組成。

步驟 1:他們使用 RoBERTa 對輸入段落進(jìn)行編碼。最后一層嵌入會(huì)被輸入給一個(gè)雙向 LSTM,從而獲得隱藏狀態(tài)。

步驟 2:他們使用 OpenIE 提取三元組,從輸入文檔中導(dǎo)出一張圖。他們將關(guān)系詞例變換為與 DualEnc 相似的顯式節(jié)點(diǎn),然后使用前面的雙向 LSTM 的隱藏狀態(tài)對節(jié)點(diǎn)的狀態(tài)進(jìn)行初始化。他們使用圖注意力網(wǎng)絡(luò)(GAT)更新節(jié)點(diǎn)狀態(tài),并使用一個(gè)讀出函數(shù)獲取圖的上下文向量。

步驟 3:他們將前兩步獲得的向量作為條件,從而生成文本。

訓(xùn)練時(shí)出現(xiàn)了一些神奇的現(xiàn)象:ASGARD 使用了強(qiáng)化學(xué)習(xí)算法,其中獎(jiǎng)勵(lì)函數(shù)是基于 ROUGE 和完形填空得分構(gòu)建的。完形填空的部分包括根據(jù)人類編寫的摘要提取 OpenIE 圖,并基于它們生成完形填空風(fēng)格的問題,以便系統(tǒng)更好地了解摘要文檔的含義。所以從某種程度上說,這里面也包含了一個(gè)問答系統(tǒng)模型。作者為 CNN 和 NYT 數(shù)據(jù)集生成了一百萬多個(gè)完形填空問題。實(shí)驗(yàn)結(jié)果表明,該方法超越了以前的對比基線。然而,預(yù)訓(xùn)練好的 BART 在目標(biāo)數(shù)據(jù)集上進(jìn)行調(diào)優(yōu)后成為了最終的最佳模型。

對話式人工智能:改進(jìn)面向目標(biāo)的機(jī)器人

在對話式人工智能(ConvAI)領(lǐng)域,我更偏愛面向目標(biāo)的系統(tǒng),因?yàn)橹R(shí)圖譜和結(jié)構(gòu)化數(shù)據(jù)自然而然地?cái)U(kuò)展了它們的能力。

       2020年,知識(shí)圖譜都有哪些研究風(fēng)向?      

圖 15:SLoTQUESTION 的模板以及另一個(gè)用于生成交互示例的不針對特定對話的模板。

首先,Campagna 等人在論文「Zero-Shot Transfer Learning with Synthesized Data for Multi-Domain Dialogue State Tracking」(https://www.aclweb.org/anthology/2020.acl-main.12.pdf)中提出了一種合成面向目標(biāo)的對話作為附加訓(xùn)練數(shù)據(jù)的方法,用于對話狀態(tài)跟蹤(DST)任務(wù)。作者創(chuàng)建了一個(gè)定義基本狀態(tài)、動(dòng)作和轉(zhuǎn)移函數(shù)的抽象模型(也可以將其稱之為本體)。它的貢獻(xiàn)在于:(1)該模型可以應(yīng)用于各種領(lǐng)域,如餐廳預(yù)訂或訓(xùn)練帶有任意空槽和值的連接搜索;(2)合成的數(shù)據(jù)允許在你在有監(jiān)督數(shù)據(jù)十分有限的域內(nèi)進(jìn)行零樣本遷移;(3)事實(shí)上,實(shí)驗(yàn)表明,(在真實(shí)的 MultiWoz 2.1 測試中)僅使用合成的語料庫進(jìn)行訓(xùn)練和評(píng)估的準(zhǔn)確性達(dá)到使用原始完整訓(xùn)練集時(shí)的約 2/3。

我相信在研發(fā)特定領(lǐng)域的對話系統(tǒng)或已標(biāo)注訓(xùn)練數(shù)據(jù)十分有限時(shí),該方法可以作為一個(gè)通用的數(shù)據(jù)增強(qiáng)方法。

Yu 等人在論文「Dialogue-Based Relation Extraction」(https://www.aclweb.org/anthology/2020.acl-main.444.pdf)專注于對話中的關(guān)系提取任務(wù),研發(fā)了 DialogRE。這是一個(gè)新的數(shù)據(jù)集,由從《老友記》中的兩千段對話中提取出的 36 中關(guān)系組成。盡管沒有使用 Wikidata 或 DBpedia 的唯一資源標(biāo)識(shí)符(URI)對這些關(guān)系進(jìn)行標(biāo)注,該數(shù)據(jù)集仍然提出了一個(gè)巨大的挑戰(zhàn),即使對 BERT 也是如此。此外,作者還提出了一種新的度量標(biāo)準(zhǔn),它可以說明一個(gè)系統(tǒng)需要經(jīng)過多少輪才能提取出某種關(guān)系。

OpenDialKG(https://pdfs.semanticscholar.org/0d3c/68c207fc83fb402b7217811af22066300fc9.pdf)這項(xiàng)工作由于在一個(gè)新的數(shù)據(jù)集上提升了對話系統(tǒng)中的基于知識(shí)圖譜的推理而獲得了 ACL 2019 最佳論文提名。Zhou 等人在論文「KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn Knowledge-driven Conversation 」(https://www.aclweb.org/anthology/2020.acl-main.635.pdf)中,將 OpenDialKG 中的主要思想用于了適用于中文的 KdConv 數(shù)據(jù)集。

還有一些工作研究如何將外部知識(shí)納入端到端的對話系統(tǒng)。如果背景知識(shí)被表示為文本三元組或表單元(或者即使是純文本),Lin 等人(https://www.aclweb.org/anthology/2020.acl-main.6.pdf)建議使用 Transformer 作為知識(shí)編碼器,而 Qin 等人(https://www.aclweb.org/anthology/2020.acl-main.6.pdf)則推薦使用記憶網(wǎng)絡(luò)式的編碼器。

如果有一個(gè)像 ConceptNet 這樣的常識(shí)知識(shí)圖譜,Zhang 等人在論文「」(https://www.aclweb.org/anthology/2020.acl-main.184.pdf)中從話語中提取出了一些概念,從而構(gòu)建了一個(gè)局部圖,然后通過一個(gè) GNN 編碼器對會(huì)影響解碼器的對話的「中心概念」進(jìn)行編碼。如果你對最近的 ConvAI 產(chǎn)品該興趣,請一定要參閱「NLP for ConvAI」(https://sites.google.com/view/2ndnlp4convai/home)研討會(huì)的論文集。

信息提取:OpenIE 和鏈接預(yù)測

如果你從事的工作恰好與根據(jù)原始文本構(gòu)建知識(shí)圖譜相關(guān),也許你已經(jīng)知道大家約定俗成將 OpenIE 作為起點(diǎn)。正如前文所述,像 OpenIE4 或 OpenIE 5 這種基于規(guī)則的框架仍然被廣泛使用。也就是說,提升 OpenIE 信息提取的指令可以緩解知識(shí)圖譜構(gòu)建過程中存在的許多問題。請注意:使用 OpenIE 獲得的知識(shí)圖譜也被成為「Open KG」(開放知識(shí)圖譜)。

Kolluru 等人在論文「IMOJIE: Iterative Memory-Based Joint Open Information Extraction 」(https://www.aclweb.org/anthology/2020.acl-main.521.pdf)中提出了一種生成式的 OpenIE 方法「IMoJIE」(迭代式的基于記憶的聯(lián)合信息提取)。在 CopyAttention 范式的啟發(fā)下,作者提出了一種迭代式的序列到序列信息提取算法:在每一輪迭代中,將原始序列與之前提取的信息連接,并將其輸入給 BERT 從而獲得最終的嵌入。接著,將帶有拷貝和注意力機(jī)制的 LSTM 解碼器用于生成新的信息提取結(jié)果(包含三元組的詞例)。為了進(jìn)一步改進(jìn)訓(xùn)練集,作者將 OpenOE 3 和 OpenIE 4 以及其它系統(tǒng)的結(jié)果作為生成結(jié)果的「銀標(biāo)簽」進(jìn)行了聚合和排序。

盡管該架構(gòu)看似簡單,但它相較于現(xiàn)有的對比基線確實(shí)帶來了顯著的性能提升。模型簡化實(shí)驗(yàn)(又稱消融實(shí)驗(yàn))的結(jié)果表明,BERT 對于整體的信息提取質(zhì)量至關(guān)重要,所以我猜想如果使用一個(gè)更大的 Transformer,或使用一個(gè)針對特定領(lǐng)域預(yù)訓(xùn)練的語言模型(例如,如果你的文本是來自法律或生物醫(yī)學(xué)領(lǐng)域)信息提取質(zhì)量會(huì)得到進(jìn)一步的提升。2020年,知識(shí)圖譜都有哪些研究風(fēng)向?

圖 16:序列化解碼過程。

盡管在 RDF 式的知識(shí)圖譜上的鏈接預(yù)測(LP)任務(wù)中,人們已經(jīng)做出了一些里程碑式的工作,我們并不能認(rèn)為在開放知識(shí)圖譜(open KG)上也是如此。

       2020年,知識(shí)圖譜都有哪些研究風(fēng)向?      

圖 17:對鏈接預(yù)測和開放鏈接預(yù)測的對比評(píng)價(jià)。

但現(xiàn)在可以做到了!

Broscheit 等人在論文「Can We Predict New Facts with Open Knowledge Graph Embeddings? A Benchmark for Open Link Prediction」(https://www.aclweb.org/anthology/2020.acl-main.209.pdf)中定義了給定開放知識(shí)圖譜在面臨以下挑戰(zhàn)時(shí)的開放鏈接預(yù)測任務(wù):

給定一個(gè)(“主語文本”或“關(guān)系文本”)的查詢,系統(tǒng)需要預(yù)測真實(shí)的、不能被簡單解釋的新事實(shí)。

然而,并沒有可用的實(shí)體或關(guān)系 URI 能將表面形式綁定到同一個(gè)表征上。

盡管如此,許多相同實(shí)體或關(guān)系的表面形式可能會(huì)造成測試機(jī)泄露,因此需要仔細(xì)地構(gòu)建并清洗測試集。

作者提出了一種構(gòu)建并清洗數(shù)據(jù)集的方法、一種評(píng)價(jià)協(xié)議,以及一種對比基準(zhǔn)測試任務(wù)。OLPBench 是一種最大的基于知識(shí)圖譜嵌入的鏈接預(yù)測數(shù)據(jù)集:它包含超過 30M 三元組、1M 獨(dú)特的開放關(guān)系、800K 個(gè)被提及了 2.5M 次的唯一實(shí)體。在實(shí)驗(yàn)中,作者使用了 ComplEx,通過 LSTM 聚合多詞例聲明。開放鏈接預(yù)測任務(wù)由此變得十分困難:即使強(qiáng)大的 768 維 ComplEx 也只得到了 3.6 MRR,2 Hit@1,6.6 Hits@10 的測試結(jié)果。

顯然,這是一個(gè)頗具挑戰(zhàn)的數(shù)據(jù)集:看到這些方法不僅可以被擴(kuò)展到如此之大的圖上,還能夠?qū)⑿阅芴嵘脚c FB15K-237 相當(dāng)?shù)乃缴希壳?,這一數(shù)字是 35 MRR 以及 55 Hits@10)是十分有趣的。

此外,如果你對根據(jù)文本構(gòu)建知識(shí)圖譜感興趣,我推薦你參閱 AKBC 2020(https://www.akbc.ws/2020/papers/)的會(huì)議論文集。  雷鋒網(wǎng) 雷鋒網(wǎng) 雷鋒網(wǎng)

結(jié)語

在今年的 ACL 2020 上,我們發(fā)現(xiàn)有關(guān)知識(shí)圖譜增強(qiáng)的語言模型和命名實(shí)體識(shí)別(NER)的工作變少了,而另一方面,「Graph-to-Text」方面的自然語言生成工作正處于上升趨勢!

via https://towardsdatascience.com/knowledge-graphs-in-natural-language-processing-acl-2020-ebb1f0a6e0b1


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

2020年,知識(shí)圖譜都有哪些研究風(fēng)向?

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說