丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
國際 正文
發(fā)私信給章敏
發(fā)送

1

ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

本文作者: 章敏 2016-07-27 10:57
導(dǎo)語:在自然語言處理(NLP)中,理清上下文關(guān)系是一項(xiàng)的關(guān)鍵任務(wù) ,本文將所用方法延伸為整合基于路徑的和分布式的信號,將此任務(wù)上的性能提高到了當(dāng)前最佳的水平。

通過整合基于路徑的方法和分布式的方法改善詞對檢測

聯(lián)合編譯:章敏,高斐,陳圳

摘要

在自然語言處理(NLP)中,理清詞對關(guān)系是一項(xiàng)的關(guān)鍵任務(wù) ,在一份使用兩種互補(bǔ)方法的文獻(xiàn)中也強(qiáng)調(diào)這一點(diǎn)。分布式方法:其監(jiān)督式的變體是目前最好的任務(wù)執(zhí)行器;基于路徑的方法:它只受到少許的研究關(guān)注。我們發(fā)現(xiàn),改善后的基于路徑的算法——其依賴的路徑(dependency path)通過遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行編碼——與分布式方法相比應(yīng)該能達(dá)到理想結(jié)果。然后,我們將所用方法延伸為整合基于路徑的和分布式的信號,這顯著地將此任務(wù)上的性能提高到了當(dāng)前最佳的水平。

1.簡介

在自然語言處理任務(wù)中,詞對關(guān)系是非常重要的詞匯語義關(guān)系 。例如,知道Tom Cruise是一個(gè)演員,有助于問題回答系統(tǒng)回答問題如:“哪個(gè)演員參演了Scientology”。而語義分類 ,如詞匯網(wǎng)絡(luò)(WordNet),在詞匯類型之間定義了詞對關(guān)系,但他們在范圍和領(lǐng)域中是有限的。因此,已經(jīng)開發(fā)了自動(dòng)化的方法來確定,對于一個(gè)給定的詞對(x,y),y是否是x的詞對,取決于它們在大型語料庫的產(chǎn)生過程。

幾十年來,這個(gè)任務(wù)已經(jīng)有兩種類型的解法:分布式和基于路徑。在分布式方法中,y是否是x的詞對取決于這些術(shù)語的分布表示。之后,隨著流行詞匯的嵌入,大部分注意力被轉(zhuǎn)移到了監(jiān)督分配方法,其中每一個(gè)詞對(x,y),都用了一些詞的嵌入向量組合進(jìn)行表示。

相比于分布式方法(決定基于x和y單獨(dú)的上下文),基于路徑的方法,是基于語法詞匯路徑聯(lián)合語料庫中x和y的共同發(fā)生進(jìn)行抉擇的。Hearst定義了一個(gè)很小的頻繁路徑集來表示詞對關(guān)系,例如,Y如X,Snow等人,將每一個(gè)詞對(x,y)表示成依賴路徑的多重集合,連接他們在語料庫中的共同出現(xiàn),并基于這些特征,訓(xùn)練了一個(gè)分類器來預(yù)測詞對關(guān)系。

使用單獨(dú)的路徑作為特征會(huì)導(dǎo)致一個(gè)巨大的,稀疏的特征空間。盡管一些路徑是稀有的,它們也是由某些不重要的組件組成。例如,““Spelt is a species of wheat” 和 “Fantasy is a genre of fiction” 產(chǎn)生兩個(gè)不同的路徑:X be species of Y 和X be genre of Y,但兩個(gè)都暗示了X is-a Y。唯一的解決方法是和PATTY系統(tǒng)所做的一樣,通過使用他們講話的一部分標(biāo)簽或百搭牌代替路徑上面的詞匯來歸納路徑。

總體而言,最好的路徑為基礎(chǔ)的方法的性能比分配方法更糟糕?;诼窂降姆椒ǖ囊粋€(gè)主要限制是:他們要求,詞對一起在語料庫中發(fā)生,限制了召回這些方法。然而分布式的方法沒有這樣的要求,他們通常不會(huì)精確檢測一個(gè)特定的語義關(guān)系如詞對關(guān)系,并且在檢測詞之間的廣義語義相似性方面性能非常高。雖然這些方法似乎是互補(bǔ)的,但整合他們的工作卻不少。

在本文中,我們提出了HypeNET,一種結(jié)合基于路徑和分布式的方法,用于上下文語境檢測。受到最近關(guān)系分層方面研究的啟發(fā),我們使用了一個(gè)長短期的記憶(LSTM)網(wǎng)絡(luò),進(jìn)行依賴路徑的編碼。為了給我們的網(wǎng)絡(luò)創(chuàng)造足夠的訓(xùn)練數(shù)據(jù),,我們遵循了以前的方法,即構(gòu)建一個(gè)基于知識資源的數(shù)據(jù)集。

首先,我們展示了基于路徑的方法,在它自己本身方面,相比于以前基于路徑的方法性能得到了很大的提高,并達(dá)到了分布式方法一樣的性能。我們的分析表明,神經(jīng)路徑表示,可以確保更好的概括。雖然粗劣的概括,如通過它的POS標(biāo)簽取代一個(gè)詞,是捕獲路徑之間主要的句法的相似性,HypeNET也是同樣捕獲語義的相似性。

然后,我們表明,我們可以很容易地在網(wǎng)絡(luò)中集成分布式信號。整合結(jié)果表明,分布式和基于路徑的信號實(shí)際上提供了補(bǔ)充信息,相比于每一個(gè)單獨(dú)的模型,結(jié)合模型的性能提高到了14F1點(diǎn)。

2.背景

我們介紹了兩個(gè)用于詞對關(guān)系檢測的主要方法:分布式方法,和基于路徑的方法。隨后我們討論了遞歸神經(jīng)網(wǎng)絡(luò)在關(guān)系分級相關(guān)的任務(wù)方面的應(yīng)用。

2.1分布式方法

詞對關(guān)系檢測是常用的分布式方法。在該方法中,基于兩個(gè)術(shù)語的分布表示檢測y是否是x的詞對,例如,在語料庫中每一個(gè)術(shù)語單獨(dú)出現(xiàn)的語境。

以前的方法開發(fā)出了詞對的無監(jiān)督方法,從對稱相似測量開始,并遵循基于分布包含假設(shè)的定向方法。這一假說認(rèn)為,一個(gè)下位詞的語境預(yù)計(jì)將在很大程度上包含那些上位詞。最近的工作介紹了新的措施,它是基于這樣的一個(gè)的假設(shè):上位詞最典型的語言語境比下位詞的信息量更少。

最近,分布式方法的焦點(diǎn)轉(zhuǎn)變成了監(jiān)督方法。在這些方法中,(X,Y)術(shù)語由一個(gè)特征向量表示,并且在分類器上訓(xùn)練了這些向量以預(yù)測詞對關(guān)系。有幾種方法將術(shù)語對表示為每個(gè)術(shù)語嵌入載體的組合:級聯(lián)x向量⊕y向量,差異y向量-x向量,點(diǎn)積x向量·y向量。使用神經(jīng)詞匯嵌入,這些方法很容易容易投入應(yīng)用,并產(chǎn)生好的結(jié)果。

2.2基于路徑的方法

有一個(gè)檢測術(shù)語對(x,y)之間詞對關(guān)系的方法,考慮到了詞匯-語法路徑(連接大的語料庫中x和y共同發(fā)生的接口)。從自由文本中自動(dòng)探測和跟蹤上位詞,就是基于這樣的一個(gè)路徑,它是由Hearst首先提出的(確定一小套詞匯句法路徑表明上下文關(guān)系,例如Y such as X, X and other Y)。

在后期工作中,Snow等人學(xué)習(xí)檢測上下文關(guān)系。并非搜索尋找具體路徑表明上下文詞對關(guān)系,他們將每一個(gè)(x,y)語術(shù)對表示成所有依賴路徑的多重集合——連接語料庫中x和y,并基于其他路徑訓(xùn)練一個(gè)邏輯回歸分類器,預(yù)測y是否是x上位詞。

路徑表明上位關(guān)系是那些被分類器分配高權(quán)重的東西。通過這種方法確定的路徑將被Hearst證明包括這些發(fā)現(xiàn),溫和的提升性能。Snow等人方法的變化后期會(huì)被用于很多任務(wù)如:分類建設(shè),類比識別,和定義提取。

依靠詞匯句法路徑的一個(gè)主要的限制是特征空間的稀疏性。由于類似的路徑可能會(huì)有所不同,在詞匯層面,概括這種變化到更多抽象路徑可以增加召回。PATTY算法用于概括從自由文本中獲取長期關(guān)系的分類。對于每個(gè)路徑,他們添加了廣義版本,其中的一個(gè)沿路徑的單詞的子集將被替換,可以是是他們的POS標(biāo)簽,或其本體論的類型或百搭牌。這種泛化會(huì)增加召回,同時(shí)保持相同水平的精度。

2.3用于關(guān)系分類的RNNs

關(guān)系分類是相關(guān)的任務(wù),它的目標(biāo)是:將一個(gè)給定的語句中兩個(gè)相近的目標(biāo)項(xiàng),表示到一個(gè)預(yù)定義的關(guān)系類中。為了說明,考慮下面的句子,來自SemEval-2010關(guān)系分類數(shù)據(jù)集:“[蘋果]e1在[籃] e2中”。其中,目標(biāo)實(shí)體之間的關(guān)系表達(dá):內(nèi)容?容器(e1,e2)。

目標(biāo)實(shí)體之間的最短的依賴關(guān)系的路徑,被證明是用于這個(gè)任務(wù)的信息。最近,深度學(xué)習(xí)技術(shù)在捕獲這樣路徑中的指示信息方面,表現(xiàn)出了良好的性能。

特別是,有幾篇論文表明使用遞歸網(wǎng)神經(jīng)網(wǎng)絡(luò)(沿邊緣到邊緣處理依賴路徑)提高了性能。Xu等人對于每個(gè)序列詞,POS標(biāo)簽,依賴標(biāo)簽和沿著路徑的詞匯網(wǎng)絡(luò),應(yīng)用了分離長短期記憶(LSTM)網(wǎng)絡(luò)。LSTM中max-pooling層的輸出被用作網(wǎng)絡(luò)的輸入,預(yù)測分類。其他論文建議混合額外的網(wǎng)絡(luò)架構(gòu),以進(jìn)一步提高性能。

盡管關(guān)系分類和詞對關(guān)系檢測都涉及識別語義關(guān)系(持有條款對),但他們在主要方面有所不同。在關(guān)系分類中關(guān)系應(yīng)在給定的文本中表達(dá),而在上位關(guān)系檢測,目標(biāo)是在術(shù)語(在許多語境中持有的術(shù)語)之間識別一個(gè)通用的詞匯語義關(guān)系。因此,關(guān)系分類術(shù)語對由單獨(dú)依賴路徑表示,而在上下文關(guān)系檢測中,它是由所有依賴路徑的多集合(在語料庫中共同出現(xiàn))表示。

3.基于LSTM的上下文關(guān)系檢測

我們提出了HypeNET,用于上下文關(guān)系檢測的基于LSTM的方法。我們首先專注于改善路徑表示(第3.1節(jié)),然后將分布式信號集成到我們的網(wǎng)絡(luò)中,最后產(chǎn)生組合方法(第3.2節(jié))。

3.1基于路徑的網(wǎng)絡(luò)

和前期的工作類似,我們將每一個(gè)依賴路徑表示成邊緣的序列(在依賴數(shù)中引導(dǎo)x至y)。每一個(gè)邊緣包括論點(diǎn)和源點(diǎn)的部分演講標(biāo)簽,依賴標(biāo)簽,和兩個(gè)后面點(diǎn)之間的邊緣方向。我們定義每一個(gè)邊緣為lemma/POS/dep/dir。說明見圖1。

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

圖1:句子“parrto is a bird”的依賴樹實(shí)例,其中 x=parrot,y=bird,符號可表示為  X/NOUN/nsubj/< be/VERB/ROOT/-Y/NOUN/attr/>。

并非將整個(gè)依賴路徑看成單獨(dú)的特征,我們還使用了長短期記憶(LSTM)網(wǎng)絡(luò)編碼邊緣序列。從不同的給定(x,y)對路徑獲得的向量是共用的,并且結(jié)果向量用于分類。圖2描述了整體網(wǎng)絡(luò)結(jié)構(gòu)(下文中將進(jìn)行描述)。

邊緣表示.我們通過串聯(lián)組成的向量表示每一個(gè)邊緣:

       ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

其中向量vl代表論點(diǎn)的嵌入向量,向量vpos代表詞性,向量vdep代表依賴標(biāo)簽,vdir代表依賴方向(沿著x到y(tǒng)的路徑)。

路徑表示.對于由邊緣e1.........ek,組成的路徑p,邊緣向量ve1........vek被依次放入LSTM編碼器,產(chǎn)生向量Op表示整個(gè)路徑p。LSTM結(jié)構(gòu)在序列中捕獲時(shí)間模式非常有效。我們希望訓(xùn)練程序可以促使LSTM編碼器集中于路徑部分——更多的信息用于分類任務(wù),而忽略其他的信息。

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

圖2:詞對分類法的插圖。每一個(gè)詞對由幾個(gè)路徑表示。每個(gè)路徑由一系列邊組成,每條邊又由四部分組成:詞條,POS,依賴標(biāo)簽與依賴方向。每一個(gè)邊向量依照序列被存儲(chǔ)到LSTM中,最終生成一個(gè)路徑嵌入式矢量Op。平均路徑矢量成為屬于對的特征矢量,用于對術(shù)語對進(jìn)行分類。虛線矢量vwx,vwy用于指代3.2部分描述的整合網(wǎng)絡(luò)。

詞對分類.每一個(gè)(x,y)詞對被用于表示詞匯句法路徑的多重集合,這些路徑將語料庫中的x,y聯(lián)系在一起,同是對所有的詞對實(shí)施監(jiān)管。我們用每一個(gè)詞對的路徑矢量的平均權(quán)值表示該詞對(x,y)。在計(jì)算過程中,我們對該詞對的路徑矢量進(jìn)行平均分?jǐn)偅?/p>

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

其中,fp(x,y)表示paths(x,y)中o的頻率。然后,我們將該路徑矢量存儲(chǔ)入一個(gè)單層網(wǎng)絡(luò)中,該網(wǎng)絡(luò)運(yùn)用二分分類法確定y為x的上義詞。

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

為一個(gè)2維度的矢量, 其組成成分的總和為1,倘若c[1]>0.5,我們將該詞對劃分為肯定詞對。

實(shí)施細(xì)節(jié) .我們運(yùn)用PyCNN來練習(xí)該網(wǎng)絡(luò)。我們運(yùn)用迷你批量10與亞當(dāng)更新規(guī)則,結(jié)合基于梯度的優(yōu)化方法,最大限度地降低交叉熵(Kingma & Ba, 2014)。通過減少成分嵌入,以實(shí)現(xiàn)應(yīng)用正規(guī)化。我們使用驗(yàn)證集合(參照超參數(shù)值的附錄)調(diào)整超參數(shù)(學(xué)習(xí)速率與輟學(xué)率)。

采用在維基百科上訓(xùn)練使用過的預(yù)先訓(xùn)練GloVe單詞嵌入方式,實(shí)現(xiàn)詞條嵌入的初始化進(jìn)程(Pennington et al., 2014)。我們嘗試使用50維度與100維度的嵌入矢量,選擇出那些在驗(yàn)證集合中得出較好結(jié)果的矢量。其他的嵌入矢量及詞匯量之外的詞條都被隨機(jī)初始化。在訓(xùn)練過程中,對所有的嵌入矢量實(shí)施更新。

3.2經(jīng)整合的網(wǎng)絡(luò)

3.1呈現(xiàn)的網(wǎng)絡(luò)依據(jù)語料庫中,連接x,y的路徑對每一個(gè)術(shù)語對(x,y)進(jìn)行分類。我們的目標(biāo)是改善先前基于路徑的上下義關(guān)系檢測方法,第6部分顯示我們的網(wǎng)絡(luò)確實(shí)超過了先前使用的檢測方法。然而,由于基于路徑式的與分布式的方法被認(rèn)為具有互補(bǔ)性,我們提出一種更為簡單的方法,即將分布式特征整合入網(wǎng)絡(luò)中。

我們對該網(wǎng)絡(luò)進(jìn)行拓展,旨在將每一個(gè)屬于的分部信息考慮在內(nèi)。受到監(jiān)督分布式級聯(lián)方法(Baroni et al., 2012)的啟發(fā),我們簡單地將x,y,詞匯嵌入與(x,y)特征矢量聯(lián)系在一起,重新定義為vxy:

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

其中,vwx,vwy分別為x,y的 詞匯嵌入矢量,vpaths(x,y)為方程中的平均路徑矢量。運(yùn)用這種方法,每一個(gè)詞對(x,y)可以用其分布特征,x,y,及其基于路徑的特征表示。

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

表1:每一種詞匯來源中的上下義關(guān)系

4 數(shù)據(jù)集

4.1創(chuàng)建實(shí)例

神經(jīng)網(wǎng)絡(luò)多需要大量的訓(xùn)練數(shù)據(jù),然而,現(xiàn)有的上義詞數(shù)據(jù)集,如BLESS (Baroni & Lenci, 2011),相對來講都比較小。因而,我們通過知識資源遠(yuǎn)程監(jiān)控這一常見的方法,創(chuàng)建一個(gè)數(shù)據(jù)集(Snow et al., 2004; Riedel et al., 2013 )。Snow 等人(2004)基于詞網(wǎng)上義詞關(guān)系創(chuàng)建了自己的數(shù)據(jù)庫,仿照其創(chuàng)建方法,我們從以下幾種數(shù)據(jù)資源中選取上下義關(guān)系:Wordnet (Fellbaum, 1998), DBPedia (Auer et al., 2007),Wikidata (Vrandecic, 2012),及Yago (Suchanek et al., 2007).

我們數(shù)據(jù)集中的所有實(shí)例,肯定的與否定的,都是至少與其中一種數(shù)據(jù)資源存在直接聯(lián)系的詞對。這些語言資源包含成百上千種語義關(guān)系,其中有一些具有不同程度的上下義關(guān)系。為了避免出現(xiàn)有問題的關(guān)系類型,我們僅考慮那些無爭議的上下義關(guān)系,將其視為肯定的實(shí)例(見表格1),這些無爭議的上下義關(guān)系是我們從Shwartz 等(2015)的論文中人工甄選獲得的。

與其他語義關(guān)系(包括同義詞關(guān)系)相關(guān)聯(lián)的詞對均被當(dāng)作否定的實(shí)例。將相互關(guān)聯(lián)而非隨機(jī)性的詞對當(dāng)作否定實(shí)例,可以測驗(yàn)我們所選用方法的區(qū)分上下義關(guān)系與其他類型語義關(guān)系的效果。在我們的數(shù)據(jù)集中,肯定與否定詞對的比例保持在1:4。

與Snow等人對詞對的選取方法相似, 我們的數(shù)據(jù)集中只包括在語料庫中聯(lián)合出現(xiàn)的詞對,這將要求每一個(gè)詞對至少擁有兩個(gè)不同的依賴路徑。

4.2隨機(jī)型分割與詞匯數(shù)據(jù)集分割

作為我們主要的數(shù)據(jù)集,我們使用標(biāo)準(zhǔn)化隨機(jī)分割法,其中訓(xùn)練占70%,測試占25%,驗(yàn)證集合占5%。

Levy等人(2015)指出,監(jiān)督分布式詞匯推理方法有運(yùn)用“詞匯記憶”的趨勢,即在很大程度上,他們學(xué)習(xí)詞對中單一詞匯的性質(zhì):該詞匯是否是一個(gè)典型的上義詞,而非學(xué)習(xí)兩個(gè)詞匯之間的關(guān)系。例如,如果訓(xùn)練集合中包含如下詞對,如(dog,  animal), (cat, animal), (cow, animal), 且所有這些詞對都被注釋為肯定詞對,該算法便可能將animal當(dāng)作上義詞,將任何新的(x, animal)詞對視為肯定詞對,不論x與animal之間存在何種關(guān)系。Levy等(2015)建議拆分列與測試集,旨在使每一列與每個(gè)測試集都包含一個(gè)具有特征的詞匯(“詞匯分割”),防止出現(xiàn)過度擬合詞匯記憶的模型。

為了調(diào)查上述出現(xiàn)的行為,我們也將呈現(xiàn)我們的數(shù)據(jù)集的詞匯分割結(jié)果。如此一來,我們將訓(xùn)練,測試及驗(yàn)證集合分割開來,使每一部分都包含一個(gè)特征明顯的詞匯。值得注意的是,我們采用不同于Levy等人的方法,Levy等人僅對列與測試集合進(jìn)行分割,主要使用驗(yàn)證集合。之所以采用不同于前人的方法,是由于我們注意到,當(dāng)驗(yàn)證集合中包含列中的詞匯時(shí),當(dāng)調(diào)整超參數(shù)時(shí),詞匯記憶會(huì)對該模型產(chǎn)生積極影響,最終在詞匯特征測驗(yàn)集合中計(jì)算產(chǎn)生不理想的性能結(jié)果。當(dāng)每一個(gè)集合中都包含一個(gè)特征詞匯時(shí),需要調(diào)整參數(shù)以避免詞匯記憶現(xiàn)象,在測驗(yàn)集合中進(jìn)行計(jì)算時(shí)將得出更為理想的結(jié)果。進(jìn)行詞匯分割時(shí),我們試圖將比例大致保持在70/25/5。以上所創(chuàng)建的數(shù)據(jù)集規(guī)模將呈現(xiàn)在表格2中。

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

表格2:每一個(gè)數(shù)據(jù)集中實(shí)例的數(shù)量

的確,訓(xùn)練一個(gè)詞匯分割數(shù)據(jù)集模型可能會(huì)產(chǎn)生一個(gè)更具普適性的模型,這種模型在推理過程中將會(huì)更有效地處理包含兩個(gè)不可見詞匯的詞匯對。然而,我們認(rèn)為,在普通的應(yīng)用過程中,該推理過程應(yīng)當(dāng)設(shè)計(jì)一個(gè)不可見的詞對(x,y),在這樣的詞對中,x和/或y已經(jīng)在單獨(dú)的語料中出現(xiàn)過。訓(xùn)練使用隨機(jī)分割法的模型可能會(huì)采用顯示上下義關(guān)系或同義關(guān)系的優(yōu)先概率的模型,這一優(yōu)先概率信息將在推理過程發(fā)揮有益的作用。

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

圖表3:將x歸納為y的實(shí)例

5 .基線

我們通過對比Hype NET與幾種最好的方法來檢測上下義關(guān)系,如第二部分所描述:基于路徑的方法與分布式方法。由于不同的工作使用不同的數(shù)據(jù)集和語料庫,我們選擇復(fù)制基線,而非與報(bào)道結(jié)果進(jìn)行對比。

自2015年5月起,我們采用維基百科轉(zhuǎn)儲(chǔ)作為所有方法的語料庫,并運(yùn)用spaCy對其進(jìn)行分析。我們使用驗(yàn)證集合進(jìn)行模型選擇,旨在對每一種方法的超參數(shù)進(jìn)行調(diào)整。最優(yōu)超參數(shù)將在附錄中呈現(xiàn)。

5.1 基于路徑的方法

Snow .我們參照原始文章,并提取四條邊之間最短的路徑,或依賴樹中詞匯之間較短的路徑。與Snow等人(2004)采用的方法相似,我們?yōu)槊恳粭l路徑添加“衛(wèi)星邊”,即那些早已脫離依賴路徑的單一詞匯,這些詞匯或與x相連,或與y相連,形成“將Y歸納為X”的路徑。這些特征路徑的數(shù)量為324,578。我們運(yùn)用x2特征選擇法保存100,000條信息量最大的路徑,并訓(xùn)練使用一種邏輯回歸分類器。

歸納. 我們也將采用的方法與使用普通依賴路徑的基線進(jìn)行對比。在此過程中生成所有可能歸納方法的冪集,其中包括原始路徑。例如,經(jīng)歸納后的特征數(shù)量總計(jì)為2,039,220。與第一種基線相似,我們選用特征選擇法,此次保留1,000,000條蘊(yùn)含最大信息量的路徑,在普通路徑的基礎(chǔ)上練習(xí)使用一種邏輯回歸分類器。

5.2 分布式方法

無監(jiān)管式方法 .SLQS (Santus 等,2014)是一種基于熵的上下義關(guān)系檢測方法,據(jù)報(bào)道,這種檢測方法由于先前使用的state-of-the-art無監(jiān)管式方法。原始文章在BLESS數(shù)據(jù)集中得到評估,該數(shù)據(jù)集由大量常用詞組成。將同時(shí)包含罕見詞匯的SLQS設(shè)置方法用于檢測我們的數(shù)據(jù)集,最終產(chǎn)生較低性能的結(jié)果。因而,我們獲得了Enrico Santus的幫助,經(jīng)過調(diào)整系統(tǒng)后,他為我們提供了我們的數(shù)據(jù)集在SLQS中的檢測結(jié)果。

該驗(yàn)證集合被用于調(diào)整將一個(gè)詞對劃分為肯定次對的閾值,及每一個(gè)詞匯最相關(guān)的語境數(shù)量N的閾值。在原始文章中,每一個(gè)詞匯相關(guān)聯(lián)的語境數(shù)量被設(shè)定為N,經(jīng)過調(diào)整后,該數(shù)量被設(shè)定為LMI零分以上的語境數(shù)量和N之間的最小值。此外,SLQS分?jǐn)?shù)并不會(huì)詞匯之間相似分?jǐn)?shù)的余弦值的變化而增長。

監(jiān)管式方法 .為了表示帶有分布式特征的詞對,我們嘗試過幾種state-of-the-art方法。我們下載了幾種不同型號的前訓(xùn)練嵌入方法,并訓(xùn)練使用了一定數(shù)量的分類器:邏輯回歸,SVM,帶有RBF樞紐的SVM。據(jù)Levy等人(2005)最后一種分類器這組分類器中性能最優(yōu)的。我們運(yùn)用驗(yàn)證集合選擇模型,旨在甄選出最優(yōu)矢量,最優(yōu)方法與正則因子(見附錄)。

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

表4:基于數(shù)據(jù)集的兩個(gè)變體上,將我們所使用的方法與以線路為基礎(chǔ)的基準(zhǔn)線和先進(jìn)的分布方法比較在上下位檢測方面的性能——詞匯分割和隨機(jī)分割都會(huì)用于訓(xùn)練,測試和證實(shí)。

6.結(jié)果

表4展示了HyperNet的性能評分及其基準(zhǔn)線。HyperNet Path-based是基于路徑的遞歸神經(jīng)網(wǎng)絡(luò)系統(tǒng),HyperNet Integrated是一個(gè)復(fù)合方法。比較基于路徑的得出推廣路徑能提高重復(fù)率但是也能保持相同水平的準(zhǔn)確率,Nakashole等人發(fā)現(xiàn)了這一現(xiàn)象并進(jìn)行重新評估。HyperNet Path-based 表現(xiàn)優(yōu)于其余兩個(gè)Path-based基準(zhǔn)線,因?yàn)樗谥貜?fù)方面有重大提高,盡管在準(zhǔn)確度方面有所下降。重復(fù)的提高是由于路徑的推廣,就如在7.1部分所示。

考慮到分配的方法,為受監(jiān)督的SLQS基準(zhǔn)線在我們的數(shù)據(jù)集上表現(xiàn)要稍遜一些。精準(zhǔn)度不夠的原因在于區(qū)分上義詞和部分名詞的不足,這一現(xiàn)象在我們數(shù)據(jù)集中也十分常見,進(jìn)而造成了許多錯(cuò)誤的陽性詞配對,例如(zabrze,poland)和(kibbutz,israel)。在每一個(gè)數(shù)據(jù)分集中我們分別采樣50個(gè)誤報(bào)對,發(fā)現(xiàn)38%的誤報(bào)對出現(xiàn)在隨機(jī)分裂中而48%的誤報(bào)對出現(xiàn)在詞匯分割中,且都是整體部分詞對。

根據(jù)之前所報(bào)道的結(jié)果,監(jiān)督下的嵌入式方法在我們的數(shù)據(jù)集上表現(xiàn)最好。HyperNET Path-based表現(xiàn)次之,實(shí)現(xiàn)了最優(yōu)的結(jié)果。在我們的方法中添加分布式特征顯示出這兩個(gè)方法確實(shí)是互補(bǔ)的。在數(shù)據(jù)分割方面,HypeNET Integrated和HypeNET Path-based表現(xiàn)有差別,此外分布式方法也是一樣,有實(shí)質(zhì)性區(qū)別,并且p值相差較大在1%左右(配對tc測試)。

我們對在詞匯分割部分表現(xiàn)較差的受監(jiān)督分布式方法進(jìn)行再評估。進(jìn)一步觀察到在使用HypeNET時(shí)會(huì)有類似的減少,但這不是哪一個(gè)詞匯記憶的結(jié)果,而是由于過度概括導(dǎo)致的。

7.分析

7.1 對所學(xué)路徑進(jìn)行質(zhì)量分析

通過比較被以路徑為基礎(chǔ)的方法所學(xué)的指示性路徑的顯著差別,我們對HypeNET在路徑結(jié)構(gòu)方面的概括能力進(jìn)行分析。我們這樣做的原因在于尋找能促進(jìn)在數(shù)據(jù)集中進(jìn)行實(shí)報(bào)對分類的高得分的路徑?;谝月肪€為基礎(chǔ)的基準(zhǔn)線,數(shù)據(jù)回歸分類器能學(xué)習(xí)加權(quán)最高的特征。在以LSTM為基礎(chǔ)的方法中,不易直接鑒別出最有指示性的路徑。我們對特定路徑p在分類方面的貢獻(xiàn)進(jìn)行評估,通過將它視作是出現(xiàn)在術(shù)語對中的唯一路徑,并從分類方面計(jì)算它的真實(shí)標(biāo)記分?jǐn)?shù)。

Snow的方法是學(xué)習(xí)特定的路徑,這是一個(gè)有名的模式,例如X來自于Y。盡管Snow的方法是依靠逐字路徑,會(huì)限制重復(fù),但是Snow的廣義版本能做出簡略的概括,例如,X是Y的動(dòng)詞形式。顯然,這一路徑太過于廣泛,并且?guī)缀跛械膭?dòng)詞都會(huì)被分配到里面,最后導(dǎo)致路徑?jīng)]有指示作用(例如,X來自于Y)。通過努力學(xué)習(xí)這一方法能避免這種泛化和減低重復(fù)。HypeNET提供了一個(gè)更好的中點(diǎn),通過學(xué)習(xí)額外的相似語義路徑能更好地規(guī)劃路徑,例如,X成為Y的一種形式或X是Y的一種形式。在表5中將會(huì)對這些額外的例子路徑進(jìn)行行為解釋。

我們還注意到盡管是在隨機(jī)分割上,我們的模式還是能學(xué)習(xí)到比較寬廣的路徑,例如X在Y發(fā)表(是從以下實(shí)例得出的:Y=雜志)或是X是由Y產(chǎn)生的(Y=電影),在詞匯分割中僅僅能知道X和廣泛的路徑關(guān)系。我們注意到X是Y是一個(gè)比較“吵鬧”的路徑,可能會(huì)出現(xiàn)在特定的場景下,但并未指明廣泛的上下義關(guān)系(例如,巧克力就兒童的健康而言是一個(gè)大問題。)而這樣的模式可以基于一般路徑,識別看不見的上下義關(guān)系,這也證明過度泛化會(huì)影響表現(xiàn),如表4所示。正如在4.2部分所討論的一樣,我們會(huì)懷疑在這一中環(huán)境下,兩者的關(guān)系是不可見的,并且用于訓(xùn)練設(shè)置也是不常見的。

7.2 錯(cuò)誤分析

誤報(bào) 我們對誤報(bào)進(jìn)行分類,其主要依據(jù)是在資源中用于建立數(shù)據(jù)集每一對術(shù)語之間的關(guān)系。我們從不同的方面到廣義的分類對語義關(guān)系進(jìn)行分類,例如,同義詞也包括別名和維基百科重定向等方面。表6向我們展示了在誤報(bào)對之間的語義關(guān)系分布。

超過20%的錯(cuò)誤源于上下位關(guān)系詞或同義詞之間的混淆,著一關(guān)系的辨別也是十分的困難的。

額外30%的術(shù)語詞對會(huì)將上下位詞對弄顛倒(y是x的下位詞。)檢查這一些詞對實(shí)例就能發(fā)現(xiàn)這些詞對是近似同義詞,但是卻不是兩者之間的關(guān)系并沒有如此明確。例如,在WordNet中小說(fiction)是故事(story)的上位詞,但是我們卻經(jīng)常認(rèn)為兩者是同義詞。

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

表5:通過研究每一種方法得出的實(shí)例具有指示性的路徑,同時(shí)也從隨機(jī)分割測試集中選取相應(yīng)的實(shí)報(bào)術(shù)語對。上位詞用紅色標(biāo)記,下位詞用藍(lán)色標(biāo)記。

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

表6:在誤報(bào)詞對之間每一對術(shù)語之間的關(guān)系分布。

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

表7:(重合)的漏報(bào)的種類:(1)x和y同時(shí)出現(xiàn)少于25次(每一對實(shí)報(bào)詞對平均共同出現(xiàn)的次數(shù)是99.7)。(2)x或是y都不常見。(3)x的上位關(guān)系十分罕見。(4)(x,y)錯(cuò)誤注釋為陽性。

未來的一個(gè)可能研究方向就是擴(kuò)展我們的網(wǎng)絡(luò)在進(jìn)行詞對分類的同時(shí)也進(jìn)行多語義關(guān)系分類。這種分類模式能更好地劃分具有相似語義的詞對。

另一個(gè)值得注意的種類就是類似上下位的關(guān)系:在資源中,有其他一些關(guān)系能看做是上位詞,但是卻由于對于來自資源中不具爭議上位詞的嚴(yán)格選擇往往會(huì)被注釋為陰性。這包括的實(shí)例有(歌德(Goethe)職業(yè)(occupation),小說家(novelist)和Homo,subdivisionRanks以及物種(species))。

最后,其他的錯(cuò)誤往往對應(yīng)詞會(huì)在語料庫中共現(xiàn)幾次,例如,xebec,動(dòng)畫制作的工作室,會(huì)錯(cuò)誤地歸類為動(dòng)畫的下位詞。

漏報(bào) 我們?nèi)?0個(gè)被錯(cuò)誤注釋為陰性的術(shù)語詞對,并分析主要的錯(cuò)誤類型(見表7)。

大多數(shù)的這類詞對在語料庫中僅僅會(huì)共現(xiàn)幾次。導(dǎo)致這一現(xiàn)象的原因是因?yàn)椴怀R姷男g(shù)語(例如,cbc.ca)或是xde 上位詞關(guān)系不常見(例如night,paly)其主要意思是“Night”,是Harold Pinter所寫的一部戲劇。而這一術(shù)語詞對有太多的上位詞暗示路徑,導(dǎo)致分類成陰性。

8.總結(jié)

我們在上位詞檢測時(shí)使用HypeNET,一個(gè)以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的方法。首先我們專注于使用LSTM提高路徑表現(xiàn),最后導(dǎo)致以路徑為基礎(chǔ)的模式比之前的路徑模式表現(xiàn)要更好,并把之前的表現(xiàn)出色的分布方法進(jìn)行匹配。此外特別值得注意的是,重復(fù)的提高是由相似語義路徑的過度泛化導(dǎo)致的,這一之前的方法剛好相反,之前的方法既不會(huì)路徑過度泛化也不會(huì)泛化不足。

接下來通過整合分布式信號拓展我們的網(wǎng)絡(luò),產(chǎn)生額外14個(gè)F1點(diǎn)的提升,進(jìn)而也證明了以路徑和分布為基礎(chǔ)的方法確實(shí)是互補(bǔ)的。

最后我們的框架是直接適用于多種類分類,在今后的工作中可以用來分類詞對的多種語義關(guān)系。

 哈爾濱工業(yè)大學(xué)李衍杰副教授的點(diǎn)評:理清詞對關(guān)系是自然語言處理(NLP)領(lǐng)域中一項(xiàng)關(guān)鍵的任務(wù),該論文提出了一種結(jié)合基于路徑方法和分布式方法兩種方法的HypeNET方法,用于上下文語境檢測。論文受最近關(guān)系分層方面研究的啟發(fā),使用了一個(gè)長短期記憶(LSTM)網(wǎng)絡(luò)進(jìn)行依賴路徑的編碼,從而改善了基于路徑的方法,導(dǎo)致以路徑為基礎(chǔ)的模式比之前的路徑模式表現(xiàn)要更好,然后將分布式信號結(jié)合到這個(gè)網(wǎng)絡(luò)中,這種結(jié)合證實(shí)了分布式信號和基于路徑的信號確實(shí)提供了互補(bǔ)的信息,極大地提升了性能。作者還指出該框架似乎可以直接適用于多類分類。

PS : 本文由雷鋒網(wǎng)獨(dú)家編譯,未經(jīng)許可拒絕轉(zhuǎn)載!更多ACL相關(guān)資訊掃碼關(guān)注微信群

ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測



雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說