0
本文作者: 我在思考中 | 2021-10-14 18:44 |
作者 | 張龍輝
論文鏈接:https://arxiv.org/pdf/2109.06705.pdf
作者簡介:張龍輝,共同一作。目前為東北大學(xué)知識(shí)圖譜研究小組的在讀碩士,導(dǎo)師是任飛亮老師。在EMNLP,CIKM,NLPCC均有論文發(fā)表。研究領(lǐng)域?yàn)樾畔⒊槿 ?/span>
個(gè)人主頁:https://zlh-source.github.io/
導(dǎo)師主頁:http://faculty.neu.edu.cn/renfeiliang
基于表填充的關(guān)系三元組抽取方法由于其良好的性能和從句子中提取復(fù)雜三元組的優(yōu)秀能力而受到越來越多的研究者關(guān)注。然而,這類方法遠(yuǎn)遠(yuǎn)沒有發(fā)揮其全部潛力,因?yàn)樗鼈兇蠖嘀魂P(guān)注局部特征,而忽略了三元組間的全局關(guān)聯(lián),這使得模型在三元組抽取過程中會(huì)忽略某些重要信息。為了克服這一缺陷,我們提出了一種基于全局特征的關(guān)系三元組抽取模型,該模型可以充分捕獲三元組間的全局特征。
具體而言,我們首先為每個(gè)關(guān)系生成一個(gè)與之對(duì)應(yīng)的表特征。接著,我們將從這些表特征中挖掘關(guān)系間的全局交互特征、以及token pairs之間的全局交互特征。下一步,這兩類全局交互特征將進(jìn)一步融合到各個(gè)關(guān)系對(duì)應(yīng)的表特征中。以上“生成—挖掘—融合”的過程會(huì)執(zhí)行多次,以便使每個(gè)關(guān)系對(duì)應(yīng)的表特征逐步精細(xì)化。最后,根據(jù)這些表特征,我們可以對(duì)每個(gè)關(guān)系對(duì)應(yīng)的表進(jìn)行填充,并根據(jù)填充結(jié)果而得到具有相應(yīng)關(guān)系的各個(gè)三元組結(jié)果。我們?cè)诙鄠€(gè)benchmark數(shù)據(jù)集上對(duì)相應(yīng)方法進(jìn)行了評(píng)估,實(shí)驗(yàn)結(jié)果顯示,我們方法的結(jié)果明顯優(yōu)于多個(gè)最新三元組抽取方法。
三元組一般以(subject, relation, object)的形式表示客觀存在的一個(gè)知識(shí)。比如,(中國,首都,北京)可以表示“中國的首都是北京”這一事實(shí)。在三元組中,subject和object均為實(shí)體,relation為關(guān)系。相應(yīng)地,三元組抽取任務(wù)是在給定輸入文本(一般以句子為單位)的條件下,從中自動(dòng)地抽取出文本所包含的三元組信息。顯然,三元組抽取任務(wù)對(duì)于知識(shí)圖譜自動(dòng)構(gòu)建等下游任務(wù)而言至關(guān)重要。
在各類三元組抽取方法中,基于表填充的方法是目前廣受關(guān)注的一類方法。該類方法的主要特點(diǎn)包括以下兩點(diǎn)。
1)在給定輸入的條件下,該類方法為每一個(gè)關(guān)系設(shè)定一個(gè)對(duì)應(yīng)的表,表的大小為L*L,其中L為輸入文本中包含的token數(shù)。換句話說,如果預(yù)先定義了n個(gè)關(guān)系,那么,對(duì)于每一個(gè)輸入文本,將會(huì)有對(duì)應(yīng)的n個(gè)L*L的關(guān)系表。
2)關(guān)系表中的元素可以稱為對(duì)應(yīng)模型所定義的label集,主要用來提示對(duì)應(yīng)的一個(gè)token pair所具有的可以提示其是否具有對(duì)應(yīng)關(guān)系的各類提示信息。比如,我們可以用”HH”來表示某個(gè)token_i和token_j均為對(duì)應(yīng)關(guān)系的頭實(shí)體(即subject實(shí)體)中的token。
顯然,如果每個(gè)關(guān)系的對(duì)應(yīng)表信息都可以準(zhǔn)確的獲得,那么,就可以基于這些表準(zhǔn)確地推導(dǎo)出輸入文本中所具有的三元組信息。因此,基于表填充的三元組抽取方法的關(guān)鍵是有效地進(jìn)行關(guān)系表填充。
目前,一些基于表填充的方法在多個(gè)基線數(shù)據(jù)集上都取得了SOTA的結(jié)果。然而,這些已有方法在進(jìn)行表填充過程中都是以使用下面兩類局部特征為主:
1)在確定某個(gè)表元素時(shí),使用該元素所對(duì)應(yīng)的token pair信息;
2)在確定某個(gè)表元素時(shí),使用已完成填充的歷史表元素信息。
顯然,這些方法忽略了token pairs之間的全局關(guān)聯(lián)信息以及關(guān)系間的全局關(guān)聯(lián)信息。而這兩類全局特征可以較好的揭示關(guān)系和token pairs之間的差異,既可以通過多方面相互驗(yàn)證而提高三元組抽取的準(zhǔn)確率,又可以通過幫助推導(dǎo)出新的三元組而提高三元組抽取的召回率。
比如,給定輸入句子“Edward Thomas and John are from New York City, USA.”,從全局的角度來看,我們可以很容易獲得下面兩類全局信息。首先,三元組(Edward Thomas, live_in, New York)有助于三元組(John, live_in, USA)的提取,反之亦然。這是因?yàn)檫@兩個(gè)三元組的(subject, object)對(duì)具有類似的屬性,均是以(人名,地名)的形式出現(xiàn),而相同類型的實(shí)體對(duì)顯然更容易具有相同或類似的關(guān)系。換句話說,根據(jù)三元組中實(shí)體對(duì)信息的屬性可以對(duì)獲得到的三元組進(jìn)行進(jìn)一步的驗(yàn)證以提升準(zhǔn)確度。其次,通過上面兩個(gè)三元組有助于推導(dǎo)出新的三元組(New York, located_in, USA)。這是因?yàn)椋?/span>
(1)locate_in關(guān)系要求其對(duì)應(yīng)的兩個(gè)實(shí)體均與locations相關(guān);
(2)locate_in與live_in在語義上具有一定的相關(guān)性;
(3)live_in關(guān)系要求其對(duì)應(yīng)的object實(shí)體為locations。
這樣,在已知的兩個(gè)三元組和未知的三元組之間可以確立一條清晰的推導(dǎo)路徑。顯然,這兩類重要的全局特征信息不可能被現(xiàn)有方法中使用的局部特征所包含。受此啟發(fā),本文的方法主要是通過挖掘、使用上面提到的兩類全局特征進(jìn)行三元組抽取。
通過前面的介紹我們可以知道,在基于表填充的三元組抽取模型中,首要任務(wù)就是為關(guān)系表定義合適的label集,每個(gè)label均用來表示一個(gè)token pair(這里記為(wi,wj))所在某個(gè)關(guān)系對(duì)應(yīng)的表中所具有的和三元組相關(guān)的某些屬性。
在本文中,我們定義的label集為:{"N/A", "MMH", "MMT", "MSH", "MST", "SMH", "SMT", "SS"}。其中標(biāo)簽{"MMH", "MMT", "MSH", "MST", "SMH", "SMT"}等均由三個(gè)字母組成,第一個(gè)字母為M或S時(shí),代表單詞對(duì)中wi是subject中的某個(gè)單詞,并且subject是由多個(gè)單詞或單個(gè)單詞組成的實(shí)體。第二個(gè)字母與第一個(gè)字母類似,只是該字母是關(guān)于object和wj的相關(guān)信息的描述。第三個(gè)字母H或T代表該單詞對(duì)分別是subject和object的開頭或結(jié)尾。而”SS”標(biāo)簽表示該單詞對(duì)就是實(shí)體對(duì),即為兩個(gè)實(shí)體均只有一個(gè)單詞。N/A標(biāo)簽即為其它情況。
和已有的表填充方法相比,本文設(shè)計(jì)的label集的一大特點(diǎn)是可以大幅減少模型需要填充的元素個(gè)數(shù)(詳細(xì)情況可以參考論文中對(duì)應(yīng)的分析部分)。
模型結(jié)構(gòu)
我們模型的結(jié)構(gòu)如下圖1所示,主要包含4個(gè)模塊:Encoder模塊、表特征生成模塊、全局特征挖掘模塊、以及三元組生成模塊。
給定一個(gè)輸入句子,我們首先對(duì)其進(jìn)行編碼,抽取出句子特征。
之后,句子特征被輸入進(jìn)表特征生成模塊中,生成初始的表特征。
接著全局特征挖掘器利用max pooling和transformer進(jìn)行表格和句子的交互,用以捕獲全局特征,并將全局特征和句子特征進(jìn)行信息融合作為下一次迭代時(shí)的句子特征輸入進(jìn)表特征生成模塊。至此,整個(gè)迭代過程形成了一個(gè)閉環(huán)。
經(jīng)過多次迭代后,每個(gè)表對(duì)應(yīng)的特征將被逐漸細(xì)化,我們依據(jù)最后一次迭代生成的表特征使用三元組抽取器進(jìn)行表填充和表解碼以得到最終的三元組結(jié)果。
這里,我們忽略了各個(gè)模塊中的具體過程,讀者可通過閱讀原文獲取詳細(xì)信息。
圖1.模型結(jié)構(gòu)圖
表解碼策略
對(duì)于每一個(gè)關(guān)系,當(dāng)完成對(duì)其對(duì)應(yīng)的表填充后,需根據(jù)填充結(jié)果進(jìn)行解碼,以得到具有該關(guān)系的三元組結(jié)果。當(dāng)對(duì)所有關(guān)系的表解碼完成后,輸入句子所具有的所有三元組信息也相應(yīng)的獲取完成。
在本文中,我們主要通過確定實(shí)體對(duì)的開始和結(jié)束位置來進(jìn)一步確定所有的關(guān)系三元組。同時(shí),為了應(yīng)對(duì)實(shí)體嵌套的問題,在該階段我們?cè)O(shè)計(jì)了三種解碼策略:正向搜索,反向搜索和“SS”標(biāo)簽的搜索(分別對(duì)應(yīng)下面圖2中的紅線,綠線和藍(lán)線)。
圖2.表的填充和解碼示意圖
論文使用NYT29,NYT24和WebNLG數(shù)據(jù)集進(jìn)行性能測(cè)試。整體實(shí)驗(yàn)結(jié)果和消融實(shí)驗(yàn)結(jié)果如表1所示。結(jié)果顯示,相較于之前的最佳三元組抽取模型,本文提出模型的性能在三個(gè)數(shù)據(jù)集上均有明顯提升。其中,在WebNLG上的提升幅度最為明顯,我們認(rèn)為,這主要是因?yàn)閃ebNLG數(shù)據(jù)集中包含更多種關(guān)系,這也意味著三元組之間的全局特征也更多。因而,該數(shù)據(jù)集可以使我們的方法發(fā)揮更大功效。
表1.整體實(shí)驗(yàn)及消融實(shí)驗(yàn)結(jié)果
在本文所提的模型中,存在一個(gè)迭代過程,因而研究者會(huì)擔(dān)心其效率。為此,我們進(jìn)行了兩部分實(shí)驗(yàn)來評(píng)估其執(zhí)行效率。
首先,我們對(duì)模型的性能與迭代次數(shù)的關(guān)聯(lián)進(jìn)行了評(píng)估,結(jié)果如圖3所示。從中我們可以發(fā)現(xiàn)兩個(gè)重要的結(jié)論。
(1)在一定范圍內(nèi),隨著迭代次數(shù)的增多,模型性能也會(huì)逐漸上升,并且在模型在迭代兩次時(shí),性能漲幅最大,而此時(shí)正是全局特征首次參與運(yùn)算。因此,這個(gè)實(shí)驗(yàn)結(jié)果證明了捕獲全局特征的重要性。
(2)通過該實(shí)驗(yàn)結(jié)果,我們可以清晰的看到,模型僅需迭代較少的次數(shù)就可以達(dá)到最佳性能。比如,在相對(duì)簡單的NYT*和WebNLG*數(shù)據(jù)集上,只需迭代兩次即可達(dá)到最佳性能;而在其它相對(duì)復(fù)雜的數(shù)據(jù)集上,也僅需迭代3、或4次即可得到最佳性能。更重要的是,從中可以看出,即使只迭代2次,本文模型所對(duì)應(yīng)的性能也超過了之前所有的模型。
這些結(jié)果顯示,本文方法中的迭代環(huán)節(jié)不會(huì)成為模型運(yùn)行的負(fù)擔(dān)。
圖3.迭代次數(shù)與模型性能的關(guān)聯(lián)
首先,我們比較了一些當(dāng)前最佳模型的參數(shù)效率,結(jié)果如下表2所示。從中可以看出,與同樣使用Transformer的SPN模型相比,我們的模型具有更少的參數(shù)。而且,從encoder參數(shù)所占的比例來看,我們模型的迭代部分并沒有引入更多的參數(shù)。因此,從該實(shí)驗(yàn)結(jié)果我我們可以得出結(jié)論,本文所提的模型具有極強(qiáng)的參數(shù)效率:可以在較少的參數(shù)條件下達(dá)到更好的性能。此外,本文模型的另外一個(gè)優(yōu)勢(shì)在于其可以在較短的時(shí)間內(nèi)完成訓(xùn)練。因?yàn)楸疚哪P偷膃poch設(shè)置為50,而其它所有對(duì)比模型的epoch均設(shè)置為100。而從表2的推導(dǎo)時(shí)間可以看出,不同模型的推導(dǎo)時(shí)間基本接近。而模型訓(xùn)練時(shí)間與推導(dǎo)時(shí)間存在一定的正向關(guān)聯(lián),因而,較少的epoch意味著更快的訓(xùn)練速度。
表2.參數(shù)效率比較
通過上面兩類實(shí)驗(yàn),我們可以得出結(jié)論,雖然本文模型中有迭代環(huán)節(jié),但并沒有因此而導(dǎo)致效率低下,相反,通過有效地進(jìn)行全局特征挖掘,本文方法可以在較少的迭代次數(shù)下獲取最佳的實(shí)驗(yàn)性能。
在本文中,我們提出一個(gè)基于兩類全局特征的表填充三元組抽取模型。實(shí)驗(yàn)結(jié)果顯示,這兩類全局特征對(duì)于提升模型的準(zhǔn)確率、召回率均有較大幫助。相應(yīng)地,本文所提出的模型在多個(gè)基線數(shù)據(jù)集上均取得了最佳性能。并且,本文所提模型還具有參數(shù)量適中、參數(shù)效率高的特點(diǎn),是一種高效的三元組抽取模型。
還有疑問?點(diǎn)擊視頻觀看詳細(xì)講解:
添加小助手微信(AIyanxishe3),備注EMNLP2021拉你進(jìn)群
雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。