0
本文作者: 高婓 | 2016-08-04 19:48 |
摘要
我們提出一種新型向量表示法,將詞匯對比法與分布式向量相結(jié)合,增強(qiáng)用于確定詞匯相似度的最凸顯的特征。在性能方面,這些經(jīng)過調(diào)整的向量表示法在很大程度上超過了標(biāo)準(zhǔn)的向量模型,實(shí)現(xiàn)了跨詞類(形容詞,名字,動(dòng)詞)區(qū)分反義詞與同義詞這兩種語義關(guān)系,平均精確度達(dá)到0.66-0.76。此外,我們把詞匯對比向量整合入基于skip-gram模型的目標(biāo)函數(shù)中。該新型向量表示法在運(yùn)用SimLex-999預(yù)測詞匯相似度與區(qū)分反-同義詞兩個(gè)方面均優(yōu)于state-of-the-art模型。
1. 引言
反義詞與同義詞,作為兩種詞匯語義關(guān)系,是心理詞匯的重要組成部分(Miller & Fellbaum,1991)。對于意義相反的兩個(gè)詞語,我們稱之為反義詞,對于意義相同的兩個(gè)詞語,我們稱之為同義詞(Deese,1965;Lyons,1977)。從計(jì)算的角度來講,區(qū)分反義詞與同義詞對于NLP應(yīng)用具有非常重要的作用,比如,機(jī)器翻譯和文本蘊(yùn)含,這些應(yīng)用都超出普通意義上的語義關(guān)聯(lián),要求能夠識別具體的語義關(guān)系。然而,由于有些詞語可以相互替換,反義詞與同義詞經(jīng)常出現(xiàn)于相似的語境中,如此便增加了區(qū)分這兩類詞的難度。
分布式語義模型(DSMs)提供了一種詞語意義向量的表示方法,這種向量表示法決定了詞語之間的語義關(guān)系(Budanitsky & Hirst,2006;Turney & Pantel, 2010)。分布式語義模型以“分布假說”(Harris, 1954;Firth, 1957)為基礎(chǔ),該假說主張具有相似分布特點(diǎn)的詞語之間存在語義關(guān)聯(lián)。為了便于計(jì)算,每一個(gè)詞語由一個(gè)權(quán)重特征向量表示,這些特征一般與出現(xiàn)在某一特定語境中的詞匯緊密相關(guān)。然而,DSMs可以檢索同義詞(例如,formal與conventional)與反義詞(例如,formal與informal)為具有語義關(guān)聯(lián)的詞語,卻無法進(jìn)一步充分區(qū)分這兩種語義關(guān)系。
近年來,有大量分布方式被用于區(qū)分反義詞與同義詞,通常情況下,這些分布方法多與詞匯資源,如詞典或分類法,相結(jié)合。例如,Lin等(2003)利用依存三元組提取具有相似分布特征的詞匯,在后續(xù)過程中剔除那些經(jīng)常以“從x至Y”或“x或y”分布方式出現(xiàn)的詞匯。Mohammad等(2013)認(rèn)為,出現(xiàn)在相同詞典分類法中的詞對之間在意義上具有緊密聯(lián)系,將其標(biāo)注為同義詞,相反,那些經(jīng)常出現(xiàn)在相反的詞典分類法或段落中的詞對被標(biāo)注為反義詞。Scheible等(2013)認(rèn)為,依據(jù)適當(dāng)?shù)恼Z義特征,并運(yùn)用一個(gè)簡單的詞匯空間模型便可以區(qū)分反義詞與同義詞這兩種語義關(guān)系的分布特征。Santus 等(2014a,2014b)的研究目的在于運(yùn)用向量表示法識別最明顯的意義維度,并報(bào)道了一種新的基于平均精度的分布式測量方法與一種基于熵的測量方法,以區(qū)分反義詞與同義詞這兩種語義關(guān)系(進(jìn)一步區(qū)分聚合型語義關(guān)系)。
近來,區(qū)分反義詞-同義詞也已經(jīng)成為詞匯向量模型的研究重點(diǎn)。例如,Adel與Schutze(2014)將從大型語料庫中提取的核心參考鏈整合入skip-gram模型中,旨在生成詞匯向量,區(qū)分同義詞。Ono等人(2015)提出基于詞典的詞匯向量表示法,以識別反義詞。在研究過程中運(yùn)用了兩種模型:根據(jù)詞典信息訓(xùn)練詞匯向量的WE-T模型與將分布信息整合入WE-T模型中的WE-TD模型。Pham 等人(2015)介紹了一種多任務(wù)詞匯對比模型,該模型將“WordNet”并入skip-gram模型,優(yōu)化語義向量,以預(yù)測語境信息。這種模型在兩種普通的語義任務(wù)中提供否定樣例,并區(qū)分反義詞與同義詞,在性能上優(yōu)于標(biāo)準(zhǔn)的skip-gram模型。
我們在本文提出了兩種利用分布式語義空間中詞匯對比信息和詞匯向量的方法,旨在區(qū)分反義詞與同義詞。首先,在假定同義詞之間的語義重疊要多與反義詞之間的語義重疊,我們將詞匯對比信息與分布式向量相結(jié)合,增強(qiáng)可以確定詞匯相似度的最為凸顯的詞匯特征。其次,我們針對skip-gram模型,運(yùn)用否定樣例擴(kuò)展該模型 (Mikolov等,2013b),獲得新模型將詞匯對比信息整合并入目標(biāo)函數(shù)。有我們提出的新模型通過優(yōu)化語義向量來預(yù)測詞匯相似度,同時(shí)也區(qū)分反義詞與同義詞。在完成區(qū)分反義詞-同義詞和識別詞匯相似度任務(wù)中,經(jīng)改進(jìn)的詞匯向量表示法要優(yōu)于state-of-art模型。
2. 我們的方法
在本部分,我們將列舉本篇文章的兩點(diǎn)貢獻(xiàn):一種能夠改善權(quán)重特征,以區(qū)分反義詞與同義詞的新型向量表示法(見2.1),一種將經(jīng)改進(jìn)后的向量表示法整合并入目標(biāo)函數(shù),以預(yù)測詞匯相似度,識別反義詞的skip-gram擴(kuò)展模型(見2.2)。
2.1 改進(jìn)特征向量的權(quán)重
當(dāng)區(qū)分詞匯之間的相似度時(shí),通過增強(qiáng)那些最凸顯的向量特征且不過分強(qiáng)調(diào)那些不太重要的向量特征,以改善特征向量的權(quán)重,這是我們的研究目的。我們由標(biāo)準(zhǔn)語料庫中詞匯的共現(xiàn)頻率著手,運(yùn)用局部共享信息,以確定詞匯特征的原始長度。我們的得分隨后定義目標(biāo)詞w和特征f:
目標(biāo)詞w和特征f的新weightSA分?jǐn)?shù)計(jì)算法運(yùn)用同義詞與目標(biāo)詞之間平均相似度的差異,及反義詞與目標(biāo)詞之間的平均相似度。只有那些包含在計(jì)算過程中的詞匯才對應(yīng)特征f擁有一個(gè)肯定的原始LMI分?jǐn)?shù)。我們用距離的余弦值來計(jì)算兩個(gè)詞匯向量之間的相似度。倘若詞匯w與我們所用詞匯資源中的任意的同義詞或反義詞均沒有關(guān)聯(lián),或倘若一種語義特征與詞匯w之間不存在共現(xiàn)關(guān)系,我們定義結(jié)果為零。
我們的新weightSA計(jì)算過程中的詞匯對比信息的依據(jù)如下。一個(gè)詞匯的最凸顯的語義特征也可能代表其同義詞的最為明顯的語義特征,但是卻代表其反義詞的最不明顯的語義特征。例如,特征conception僅與形容詞formal的同義詞共現(xiàn),與其反義詞informal或informal 的同義詞不會同時(shí)出現(xiàn)。Formal與其同義詞之間的平均相似度減去informal與其同義詞之間的平均相似度,得到的weightSA (formal, conception)應(yīng)當(dāng)為一個(gè)高正值。相反,特征,如issue,可以與許多不同的形容詞共現(xiàn),其特征值對應(yīng)的weightSA(formal, issue)應(yīng)當(dāng)逼近零,因?yàn)閒ormal與其同義詞之間的平均相似度極大。最后,特征,如rumor僅與informal及其同義詞共現(xiàn),而不與原始目標(biāo)形容詞formal及其同義詞共現(xiàn),該特征對應(yīng)的weightSA(formal, rumor)應(yīng)當(dāng)很低。表格1為計(jì)算目標(biāo)formal的新weightSA提供了圖式結(jié)果。
由于反義詞的數(shù)量一般少于同義詞的數(shù)量,我們將進(jìn)一步擴(kuò)展反義詞的數(shù)量:我們將一個(gè)反義詞的所有同義詞看作該詞匯的反義詞。例如,與其31個(gè)同義詞相比,目標(biāo)詞good在WordNet中僅有兩個(gè)反義詞(bad和evil)。因而,我們也用bad與evil的同義詞作為good的反義詞。
圖1:目標(biāo)形容詞formal 的分?jǐn)?shù)計(jì)算的圖解。
2.2 將分布式詞匯對比法整合并入skip-gram 模型中
我們提出的模型以Levy 和Goldberg (2014)的模型為基礎(chǔ),其模型指出否定樣例skip-gram 模型的目標(biāo)函數(shù)應(yīng)定義如下:
方程2中的第一個(gè)表達(dá)式代表在一個(gè)語境窗口中目標(biāo)詞w與語境c共現(xiàn)。目標(biāo)詞出現(xiàn)的次數(shù)與出現(xiàn)的語境被定義為#(w,c)。第二個(gè)表達(dá)式表示否定樣例,其中k表示否定樣本詞匯的數(shù)量,#(w)表示目標(biāo)詞w出現(xiàn)的次數(shù)。
為了能夠?qū)⒃~匯對比信息嵌入SGN模型,我們在方程3中提出目標(biāo)函數(shù),參照目標(biāo)詞出現(xiàn)的語境信息,提高詞匯特征分布的對比度。在方程3中,V表示詞匯,sim(w1, w2)為詞匯W1和W2的兩個(gè)嵌入向量之間的相似度余弦值。我們稱分布式詞匯對比向量模型為dLCE。
與方程1相比,方程3采用一種略微不同的方式將詞匯對比信息整合入skip-gram 模型中:對于每一個(gè)目標(biāo)詞w,我們僅僅采用其反義詞A(w),而非采用其反義詞的同義詞S(w')。尤其是當(dāng)我們運(yùn)用大量訓(xùn)練數(shù)據(jù)的時(shí)候,在運(yùn)行時(shí)間內(nèi)這種整合方法能夠更為高效地訓(xùn)練詞匯向量。
dLCE模型與WE-TD模型和mLCM模型相似,然而,后兩種模型僅將從WordNet 中提取的詞匯對比信息與每一個(gè)目標(biāo)詞進(jìn)行匹配,dLCE模型將詞匯對比信息與目標(biāo)詞的每一個(gè)單一的語境進(jìn)行匹配,旨在更好地捕捉語義對比信息,并對所獲取的語義對比信息進(jìn)行分類。
3 實(shí)驗(yàn)
3.1 實(shí)驗(yàn)設(shè)置
用于我們提出的向量表示法的語料庫資源是當(dāng)前最大的網(wǎng)絡(luò)語料庫之一:ENCOW14A (Schafer & Bildhauer, 2012; Schafer, 2015),該語料庫包括145億字符和561萬不同的詞類。我們運(yùn)用5個(gè)字符表示原始向量表示法和詞匯向量模型,以此來顯示分布式信息。我們通過訓(xùn)練500個(gè)維度的詞匯向量來運(yùn)用詞匯向量表示法;設(shè)定k否定樣例的數(shù)量為15;設(shè)定次級樣例的閾值為;忽視在語料庫中出現(xiàn)次數(shù)小于10次的所有詞匯。通過隨機(jī)梯度下降法計(jì)算出誤差的反向傳播值,從而得出模型的參數(shù)。其中涉及到的學(xué)習(xí)率策略與Mikolov等人(2013)設(shè)定的學(xué)習(xí)率相似,Mikolov等人將初始學(xué)習(xí)率設(shè)定為0.025。我們運(yùn)用WordNet和Wordnik收集反義詞與同義詞,總計(jì)提取出363,309對同義詞和38,423對反義詞。
3.2區(qū)分反義詞與同義詞
第一個(gè)實(shí)驗(yàn)通過將經(jīng)改進(jìn)weightSA分?jǐn)?shù)得到的向量表示法應(yīng)用到區(qū)分反義詞與同義詞的任務(wù)中,評估我們的詞匯對比向量。我們使用Roth和Schulte im Walde (2014)文章中描述的英語數(shù)據(jù)集(黃金標(biāo)準(zhǔn)資源),該數(shù)據(jù)集包含600個(gè)形容詞詞對(300個(gè)反義詞詞對和300同義詞詞對),700個(gè)名詞詞對(350個(gè)反義詞詞對和350個(gè)同義詞詞對),800個(gè)動(dòng)詞詞對(400個(gè)反義詞詞對和400個(gè)同義詞詞對)。我們運(yùn)用平均精度和Kotleman 等人(2010)年運(yùn)用的一種信息檢索度量方法,評估計(jì)算結(jié)果。
表格1所示為第一個(gè)實(shí)驗(yàn)的結(jié)果,該結(jié)果將我們改進(jìn)過的向量表示法與原始的LMI表示法進(jìn)行跨詞類對比,對比過程中或運(yùn)用奇異值分解法,或不運(yùn)用該方法。為了運(yùn)用平均精度對詞對分步進(jìn)行評估,我們按照分?jǐn)?shù)的余弦值整理同義詞和反義詞詞對。倘若一個(gè)同義詞詞對屬于第一半,該詞對將被視為肯定;倘若一個(gè)反義詞詞對屬于另一半,該詞對將被視為肯定。表格中所示的優(yōu)化結(jié)果將SYN的平均精度賦值為1,將ANT的平均精度賦值為0。表格中的結(jié)果證明了,進(jìn)行跨此類對比過程中,weightSA在極大程度上優(yōu)于原始向量表示法。
表格1:DSM模型的平均精度評估結(jié)果
(a)形容詞詞對的余弦值 (b)名詞詞對的余弦值 (c)動(dòng)詞詞對的余弦值
圖2:反義詞詞對與同義詞詞對的余弦值之間的差異
此外,圖2所示為跨詞類對比中反義詞詞對(紅色)與同義詞詞對(綠色)兩者的相似度余弦值的中位數(shù)對比結(jié)果。圖中顯示,與原始的LMI表示法相比,運(yùn)用我們的經(jīng)過改進(jìn)的向量表示法計(jì)算得出的兩種語義關(guān)系的相似度余弦值表現(xiàn)出極大的不同,當(dāng)運(yùn)用SVD向量表示法時(shí),這種差異表現(xiàn)得更為明顯。
3.3 分布式詞匯對比法對詞匯向量的影響
第二個(gè)實(shí)驗(yàn)運(yùn)用區(qū)分反義詞-同義詞和詞匯相似度任務(wù),評估我們的dLCE模型的性能。相似度任務(wù)要求預(yù)測詞對之間的相似度,按照一種黃金人工評估標(biāo)準(zhǔn),參照Spearman 等級相關(guān)系數(shù)ρ(Siegel & Castellan, 1988),對預(yù)測結(jié)果的等級排序情況進(jìn)行評估。
本文運(yùn)用SimLex-999數(shù)據(jù)集(Hill等,2015),針對相似度預(yù)測結(jié)果來評估詞匯向量模型的性能。該數(shù)據(jù)集包含999個(gè)詞對(666個(gè)名詞詞對,222個(gè)動(dòng)詞詞對和111個(gè)形容詞詞對),建立該數(shù)據(jù)集旨在評估各種模型在捕捉詞對相似度方面,而非詞對相關(guān)性方面的性能。表格2顯示,我們提出的dLCE模型優(yōu)于SGNS和mLCM模型,證實(shí)了詞匯對比信息有助于預(yù)測詞匯相似對。
表格2:SimLex-999數(shù)據(jù)集中的Spearman等級相關(guān)系數(shù)ρ
因此,dLCE模型中同義詞(意義極為相似的詞對)與反義詞(意義極為相關(guān),卻高度不同的詞對)之間經(jīng)提升過的區(qū)分度也支持了相似度之間的差異。
表格3:識別反義詞任務(wù)中的AUC得分
我們計(jì)算在3.2描述的數(shù)據(jù)集中所包含的詞對的相似度余弦值,以區(qū)分反義詞與同義詞,然后運(yùn)用ROC曲線(AUC)下方的區(qū)域評估dLCE模型與SGN和mLCM模型的性能對比結(jié)果。表格3中的結(jié)果顯示,在該任務(wù)中dLCE模型的性能優(yōu)于SGN模型和mLCM模型。
4 結(jié)論
本文提出了一種新型向量表示法,該向量表示法能夠提高傳統(tǒng)分布式語義模型和詞匯向量預(yù)測詞匯相似度的精準(zhǔn)度。首先,我們運(yùn)用詞匯對比信息極大程度地增強(qiáng)了權(quán)重特征,以區(qū)分反義詞與同義詞。其次,我們將詞匯對比信息運(yùn)用到skip-gram模型中,能夠成功地預(yù)測詞對相似度,同時(shí)也能夠識別反義詞。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。