0
作者 | 豈凡超
本文對清華大學(xué)、華為諾亞方舟合作的論文《Multi-channel Reverse Dictionary Model》進(jìn)行解讀。該論文已經(jīng)被AAAI-20錄用。
該文關(guān)注反向詞典問題——即給定對某個(gè)詞語的描述,希望得到符合給定描述的詞語。該文提出了一種受到人的描述→詞的推斷過程啟發(fā)的多通道模型,在中英兩種語言的數(shù)據(jù)集上都實(shí)現(xiàn)了當(dāng)前最佳性能(state-of-the-art),甚至超過了最流行的商業(yè)反向詞典系統(tǒng)。此外,基于該文提出的模型,論文作者還開發(fā)了在線反向詞典系統(tǒng),包含首次實(shí)現(xiàn)的中文、中英跨語言反向查詞功能。
圖1 反向詞典示例
反向詞典顧名思義,以對目標(biāo)詞語義的描述為輸入,輸出目標(biāo)詞以及其他符合描述的詞語。
反向詞典有重要的實(shí)用價(jià)值,其最大的用處在于解決舌尖現(xiàn)象(Tip of the tongue)[1],即話到嘴邊說不出來的問題——頻繁寫作的人,如作家、研究人員、學(xué)生等經(jīng)常會遇到這種問題。
此外,反向詞典也可以為掌握詞匯不多的新語言學(xué)習(xí)者提供幫助,讓他們學(xué)習(xí)、鞏固尚不十分了解的詞語。
最后,反向詞典還可以幫助選詞性命名不能(word selection anomia)[2]的患者——他們知道想說的詞語的意思但無法主動說出來。
反向詞典同樣具有自然語言處理研究價(jià)值,比如可以用于評測句子表示學(xué)習(xí)模型[3],輔助解決問答、信息檢索等包含文本到實(shí)體映射的任務(wù)[4]。
圖2 OneLook反向詞典系統(tǒng)
現(xiàn)在已經(jīng)有一些投入使用的商業(yè)化反向詞典系統(tǒng),其中最著名、最流行的是OneLook(https://www.onelook.com/thesaurus/),但其背后的實(shí)現(xiàn)原理尚不得知。
在學(xué)術(shù)研究領(lǐng)域,目前有兩類反向詞典實(shí)現(xiàn)方法。
第一類為基于句子匹配的方法,該方法在數(shù)據(jù)庫中存儲足夠多的詞語及其定義,當(dāng)進(jìn)行反向詞典查詢時(shí),在數(shù)據(jù)庫中檢索與輸入描述最相似的定義并返回所對應(yīng)的詞語[5-8]。然而反向詞典的輸入描述非常多變,往往與已存儲的詞典定義有巨大差別,這種方法很難解決這一問題。
另一類基于神經(jīng)語言模型的方法由Bengio等人提出[3],該方法使用神經(jīng)語言模型作為編碼器將輸入描述編碼到詞向量空間,返回與之最近的詞向量對應(yīng)的詞語。近年來有很多反向詞典研究基于這種方法[4, 9-11],盡管這種方法避免了第一類方法面臨的輸入描述多變導(dǎo)致的性能較差的問題,然而考慮到相當(dāng)一部分詞是低頻詞,其詞向量的學(xué)習(xí)效果往往較差,在查詢這些詞時(shí),基于神經(jīng)語言模型的方法的性能也不甚理想。
圖3 人的描述→詞的推斷過程
為了解決第二類方法的問題,受人的描述到詞的推斷過程的啟發(fā),該文提出了多通道反向詞典模型。
以圖3為例,當(dāng)人看到“road where cars go very quickly without stopping”這條描述時(shí),除了直接猜目標(biāo)詞以外,還可以推斷出目標(biāo)詞應(yīng)具有的一些特征,比如詞性應(yīng)為名詞,詞的類型應(yīng)為實(shí)體,以及大概率具有“way”這個(gè)詞素。
受此啟發(fā),該文的模型在對描述編碼后直接進(jìn)行詞預(yù)測的基礎(chǔ)上,額外增加了四個(gè)特征預(yù)測器。該文將每個(gè)特征視作一個(gè)信息通道,四個(gè)通道可分為兩類:
1、內(nèi)部通道,該類通道預(yù)測詞本身的特征,包括詞性(part-of-speech)和詞素(morpheme);
2、外部通道,該類通道預(yù)測外部知識庫提供的詞的特征,包括詞類(word category)和義原(sememe)。其中詞類信息可由WordNet或同義詞詞林提供,義原由知網(wǎng)(HowNet)提供。
圖4 文中的多通道反向詞典模型圖
圖4為該文所提模型的圖示。該模型以基于注意力機(jī)制的雙向LSTM對輸入定義或描述進(jìn)行編碼得到句子表示,除了用該句子表示直接預(yù)測目標(biāo)詞之外,還對目標(biāo)詞的詞性(POS)和詞類(category)進(jìn)行預(yù)測。而對于另外兩個(gè)特征詞素(morpheme)和義原(sememe)的預(yù)測,則采用了不同的方法。
考慮到詞的詞素或義原和詞的描述/定義中的詞存在一種局部語義對應(yīng)關(guān)系——如圖3中的例子中“expressway”的“express-”與“quickly”、“-way”與“road”分別對應(yīng),且義原也有類似的對應(yīng)關(guān)系——因此對于這兩個(gè)特征的預(yù)測,該文用每個(gè)詞的隱狀態(tài)(hidden state)分別預(yù)測然后對預(yù)測分?jǐn)?shù)做max-pooling來得到最終的預(yù)測分?jǐn)?shù)。這些特征的預(yù)測分?jǐn)?shù)會按一定比例加到符合該特征的詞語的預(yù)測分?jǐn)?shù)上,得到最終的詞語預(yù)測分?jǐn)?shù)。
該文在英文、中文多個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。對于英文實(shí)驗(yàn),該文使用了前人工作都使用的來自多個(gè)英文詞典的定義數(shù)據(jù)集作為訓(xùn)練集,測試集則有3個(gè):
1)見過的詞典定義(Seen Definition),由一部分訓(xùn)練集中出現(xiàn)的詞典定義構(gòu)成,這一數(shù)據(jù)集主要測試模型對以往信息的回憶能力;
2)沒見過的詞典定義(Unseen Definition),由未在訓(xùn)練集中出現(xiàn)的詞典定義構(gòu)成;
3)人工構(gòu)造的描述(Description)數(shù)據(jù)集,該數(shù)據(jù)集包括人根據(jù)給定的詞語寫出的描述,是最貼合反向詞典應(yīng)用實(shí)際的數(shù)據(jù)集。
圖5 英文數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
圖5給出了英文數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn)每個(gè)特征預(yù)測器的增加都會提高模型的效果,而包含所有特征的多通道模型得到了最好的性能,不但超過了此前最佳模型(state-of-the-art) MS-LSTM,而且在真實(shí)數(shù)據(jù)集Description上甚至超過了最流行的反向詞典系統(tǒng)OneLook。
圖6 中文數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
圖6給出了中文數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,其中Question數(shù)據(jù)集包含從互聯(lián)網(wǎng)搜集的中小學(xué)根據(jù)描述選擇或?qū)懗鲈~語的題目。實(shí)驗(yàn)結(jié)果與英文數(shù)據(jù)集上的結(jié)果類似。
圖7 目標(biāo)詞義項(xiàng)數(shù)、詞頻和輸入描述對不同模型結(jié)果的影響
圖7給出了不同模型的性能受目標(biāo)詞義項(xiàng)數(shù)、詞頻和輸入描述的影響的結(jié)果(以英文數(shù)據(jù)集為例)??梢钥闯鲈撐奶岢龅哪P陀懈鼜?qiáng)的魯棒性,尤其是對于低頻詞仍然有很好的預(yù)測效果。
這篇論文提出一個(gè)受人的描述到詞的推斷過程啟發(fā)的多通道反向詞典模型,其包含詞性、詞素、詞類、義原四個(gè)特征預(yù)測器,在真實(shí)場景數(shù)據(jù)集上實(shí)現(xiàn)了最佳性能。
該文論文已經(jīng)公開在 arXiv:https://arxiv.org/pdf/1912.08441,
代碼和數(shù)據(jù)已經(jīng)放在GitHub:https://github.com/thunlp/MultiRD,
另外基于論文所提模型的在線反向詞典系統(tǒng)——萬詞王(WantWords)也已經(jīng)上線:https://wantwords.thunlp.org/
如圖8所示,該系統(tǒng)不僅支持英文、中文反向查詞,還支持英漢、漢英跨語言反向查詞,能夠顯示候選詞的詞性、定義等基本信息,且支持按照詞性、單詞長度、詞形等對候選詞進(jìn)行篩選,助你更快找到你想要的詞。
圖8 萬詞王在線反向詞典系統(tǒng)
參考文獻(xiàn)
[1] Brown, R., and McNeill, D. 1966. The tip of the tongue phenomenon. Journal of verbal learning and verbal behavior 5(4):325–337.
[2] Benson, D. F. 1979. Neurologic correlates of anomia. In Studies in neurolinguistics. Elsevier. 293–328.
[3] Hill, F.; Cho, K.; Korhonen, A.; and Bengio, Y. 2016. Learning to understand phrases by embedding the dictionary. TACL 4:17–30.
[4] Kartsaklis, D.; Pilehvar, M. T.; and Collier, N. 2018. Mapping text to knowledge graph entities using multi-sense LSTMs. In Proceedings of EMNLP.
[5] Bilac, S.; Watanabe, W.; Hashimoto, T.; Tokunaga, T.; and Tanaka, H. 2004. Dictionary search based on the target word description. In Proceedings of NLP.
[6] Zock, M., and Bilac, S. 2004. Word lookup on the basis of associations: from an idea to a roadmap. In Proceedings of the Workshop on Enhancing and Using Electronic Dictionaries.
[7] Méndez, O.; Calvo, H.; and Moreno-Armend′ariz, M. A. 2013. A reverse dictionary based on semantic analysis using wordnet. In Proceedings of MICAI.
[8] Shaw, R.; Datta, A.; VanderMeer, D. E.; and Dutta, K. 2013. Building a scalable database-driven reverse dictionary. IEEE Transactions on Knowledge and Data Engineering 25:528540.
[9] Morinaga, Y., and Yamaguchi, K. 2018. Improvement of reverse dictionary by tuning word vectors and category inference. In Proceedings of ICIST.
[10] Hedderich, M. A.; Yates, A.; Klakow, D.; and de Melo, G. 2019. Using multi-sense vector embeddings for reverse dictionaries. In Proceedings of IWCS.
[11] Pilehvar, M. T. 2019. On the importance of distinguishing word meaning representations: A case study on reverse dictionary mapping. In Proceedings of NAACL.
雷鋒網(wǎng) AI 科技評論報(bào)道 雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。