0
本文作者: 我在思考中 | 2022-04-28 10:00 | 專題:ACL 2019 |
作者 | Antonio
ACL 2022已經(jīng)于近期正式在官網(wǎng)上刊登了錄取的文章,其中涉及到詞義消歧(Word Sense Disambiguation, WSD)的文章共有4篇,參考下圖的查詢。
WSD是指識(shí)別出有多個(gè)義項(xiàng)的目標(biāo)詞匯在上下文中的含義,是NLP中一個(gè)重要并且具有NP-hard復(fù)雜度的任務(wù),不僅可以幫助機(jī)器更好地識(shí)別詞匯語(yǔ)義,還對(duì)機(jī)器翻譯、文本理解等下游任務(wù)起到輔助作用。
本文簡(jiǎn)要整理并介紹其中已經(jīng)公布了論文全文的前三篇,值得注意的是,這三篇都出自同一個(gè)課題組,即來(lái)自意大利羅馬一大的Sapienza NLP,導(dǎo)師為Roberto Navigli。
(ACL 22上關(guān)于WSD的論文)
論文題目:Nibbling at the Hard Core ofWord Sense Disambiguation
下載鏈接:https://www.researchgate.net/publication/359468349_Nibbling_at_the_Hard_Core_of_Word_Sense_Disambiguation
本文是一篇評(píng)測(cè)以往的WSD方法的分析型論文,并根據(jù)對(duì)于當(dāng)前方法的不足,提出了更加富有挑戰(zhàn)性的數(shù)據(jù)集和評(píng)測(cè)指標(biāo)。具體而言:
論文鏈接:https://www.researchgate.net/publication/359280784_DiBiMT_A_Novel_Benchmark_for_Measuring_Word_Sense_Disambiguation_Biases_in_Machine_Translation
一詞多義現(xiàn)象在機(jī)器翻譯中顯得尤為突出,這也是機(jī)器翻譯中常常出現(xiàn)的偏差的原因。文章研究了機(jī)器翻譯中的多義性偏差現(xiàn)象,并且提出了一個(gè)全新的測(cè)試基準(zhǔn),包含針對(duì)多種語(yǔ)言的測(cè)試集以及評(píng)價(jià)指標(biāo)。具體來(lái)看,文章的貢獻(xiàn)有:
文章詳細(xì)描述了句子的收集過(guò)程,包括語(yǔ)言庫(kù)選擇、句子清洗和過(guò)濾、數(shù)據(jù)集標(biāo)注等。下圖展示了數(shù)據(jù)集的標(biāo)注統(tǒng)計(jì)量:
其中數(shù)據(jù)集主要收集了名詞和動(dòng)詞。之后由于數(shù)據(jù)集是從BabelNet中收集的,文中則定義了好的和壞的釋義集,并且統(tǒng)計(jì)了多大比例的釋義被標(biāo)注者添加(OG);多大比例被移除(RG)和兩句例句使用同一釋義的比例(SL),統(tǒng)計(jì)量如下:
從準(zhǔn)確率上可以看出,DeepL的性能要顯著得比其它方法更好。
在細(xì)粒度分析歧義的新指標(biāo)上,也有類似的趨勢(shì):
之后,文章還探討了很多有意思的語(yǔ)言學(xué)分析,比如,是否動(dòng)詞要比名詞更難翻譯?編碼器是否真的可以去歧義等等?有興趣的讀者可以找來(lái)文章細(xì)細(xì)閱讀。
代碼和評(píng)測(cè)平臺(tái)之后會(huì)放出:https://nlp.uniroma1.it/dibimt
論文鏈接:https://www.researchgate.net/publication/359392427_ExtEnD_Extractive_Entity_Disambiguation
文章對(duì)WSD內(nèi)的一個(gè)更加細(xì)粒度的實(shí)體去歧義的任務(wù)進(jìn)行了新的方式去定義,即把它當(dāng)作一個(gè)文本抽取的任務(wù),并且采用兩個(gè)Transformer模型架構(gòu)實(shí)現(xiàn)(命名為EXTEND)。EXTEND在6個(gè)評(píng)價(jià)數(shù)據(jù)庫(kù)中有4個(gè)在F1 score上都達(dá)到了SOTA水平。
實(shí)體是指關(guān)系網(wǎng)絡(luò)中的節(jié)點(diǎn),相比WSD中更加寬泛的詞匯,實(shí)體名詞往往更具有實(shí)際意義,并且更有多義性的可能性,下面展示了一個(gè)例子,選出Metropolis可能指的是哪個(gè)場(chǎng)景下的。
具體而言,如下圖,EXTEND架構(gòu)首先將輸入的上下文和所有的候選項(xiàng)拼接在一起,模型的輸出則是目標(biāo)選項(xiàng)的起始和終止的單詞索引。其中,提取特征的部分是Longformer,之后的head采用簡(jiǎn)單的FC輸出每一個(gè)詞匯可能成為起始和終止的概率。
事實(shí)上,將WSD定義為這種文本提取的方式在之前的方法ESC和ESCHER中被兩次用到(都是同一位作者),其中的ESCHER方法是當(dāng)前WSD的SOTA方法,這啟發(fā)我們這種截取式方式的有效性。
以下是模型在6個(gè)數(shù)據(jù)集上的表現(xiàn),它在其中的4個(gè)上面達(dá)到了最優(yōu)的水平。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章