0
作者 | 豈凡超
本文對清華大學、華為諾亞方舟合作的論文《Multi-channel Reverse Dictionary Model》進行解讀。該論文已經被AAAI-20錄用。
該文關注反向詞典問題——即給定對某個詞語的描述,希望得到符合給定描述的詞語。該文提出了一種受到人的描述→詞的推斷過程啟發(fā)的多通道模型,在中英兩種語言的數據集上都實現了當前最佳性能(state-of-the-art),甚至超過了最流行的商業(yè)反向詞典系統(tǒng)。此外,基于該文提出的模型,論文作者還開發(fā)了在線反向詞典系統(tǒng),包含首次實現的中文、中英跨語言反向查詞功能。
圖1 反向詞典示例
反向詞典顧名思義,以對目標詞語義的描述為輸入,輸出目標詞以及其他符合描述的詞語。
反向詞典有重要的實用價值,其最大的用處在于解決舌尖現象(Tip of the tongue)[1],即話到嘴邊說不出來的問題——頻繁寫作的人,如作家、研究人員、學生等經常會遇到這種問題。
此外,反向詞典也可以為掌握詞匯不多的新語言學習者提供幫助,讓他們學習、鞏固尚不十分了解的詞語。
最后,反向詞典還可以幫助選詞性命名不能(word selection anomia)[2]的患者——他們知道想說的詞語的意思但無法主動說出來。
反向詞典同樣具有自然語言處理研究價值,比如可以用于評測句子表示學習模型[3],輔助解決問答、信息檢索等包含文本到實體映射的任務[4]。
圖2 OneLook反向詞典系統(tǒng)
現在已經有一些投入使用的商業(yè)化反向詞典系統(tǒng),其中最著名、最流行的是OneLook(https://www.onelook.com/thesaurus/),但其背后的實現原理尚不得知。
在學術研究領域,目前有兩類反向詞典實現方法。
第一類為基于句子匹配的方法,該方法在數據庫中存儲足夠多的詞語及其定義,當進行反向詞典查詢時,在數據庫中檢索與輸入描述最相似的定義并返回所對應的詞語[5-8]。然而反向詞典的輸入描述非常多變,往往與已存儲的詞典定義有巨大差別,這種方法很難解決這一問題。
另一類基于神經語言模型的方法由Bengio等人提出[3],該方法使用神經語言模型作為編碼器將輸入描述編碼到詞向量空間,返回與之最近的詞向量對應的詞語。近年來有很多反向詞典研究基于這種方法[4, 9-11],盡管這種方法避免了第一類方法面臨的輸入描述多變導致的性能較差的問題,然而考慮到相當一部分詞是低頻詞,其詞向量的學習效果往往較差,在查詢這些詞時,基于神經語言模型的方法的性能也不甚理想。
圖3 人的描述→詞的推斷過程
為了解決第二類方法的問題,受人的描述到詞的推斷過程的啟發(fā),該文提出了多通道反向詞典模型。
以圖3為例,當人看到“road where cars go very quickly without stopping”這條描述時,除了直接猜目標詞以外,還可以推斷出目標詞應具有的一些特征,比如詞性應為名詞,詞的類型應為實體,以及大概率具有“way”這個詞素。
受此啟發(fā),該文的模型在對描述編碼后直接進行詞預測的基礎上,額外增加了四個特征預測器。該文將每個特征視作一個信息通道,四個通道可分為兩類:
1、內部通道,該類通道預測詞本身的特征,包括詞性(part-of-speech)和詞素(morpheme);
2、外部通道,該類通道預測外部知識庫提供的詞的特征,包括詞類(word category)和義原(sememe)。其中詞類信息可由WordNet或同義詞詞林提供,義原由知網(HowNet)提供。
圖4 文中的多通道反向詞典模型圖
圖4為該文所提模型的圖示。該模型以基于注意力機制的雙向LSTM對輸入定義或描述進行編碼得到句子表示,除了用該句子表示直接預測目標詞之外,還對目標詞的詞性(POS)和詞類(category)進行預測。而對于另外兩個特征詞素(morpheme)和義原(sememe)的預測,則采用了不同的方法。
考慮到詞的詞素或義原和詞的描述/定義中的詞存在一種局部語義對應關系——如圖3中的例子中“expressway”的“express-”與“quickly”、“-way”與“road”分別對應,且義原也有類似的對應關系——因此對于這兩個特征的預測,該文用每個詞的隱狀態(tài)(hidden state)分別預測然后對預測分數做max-pooling來得到最終的預測分數。這些特征的預測分數會按一定比例加到符合該特征的詞語的預測分數上,得到最終的詞語預測分數。
該文在英文、中文多個數據集上進行了實驗。對于英文實驗,該文使用了前人工作都使用的來自多個英文詞典的定義數據集作為訓練集,測試集則有3個:
1)見過的詞典定義(Seen Definition),由一部分訓練集中出現的詞典定義構成,這一數據集主要測試模型對以往信息的回憶能力;
2)沒見過的詞典定義(Unseen Definition),由未在訓練集中出現的詞典定義構成;
3)人工構造的描述(Description)數據集,該數據集包括人根據給定的詞語寫出的描述,是最貼合反向詞典應用實際的數據集。
圖5 英文數據集實驗結果
圖5給出了英文數據集上的實驗結果,可以發(fā)現每個特征預測器的增加都會提高模型的效果,而包含所有特征的多通道模型得到了最好的性能,不但超過了此前最佳模型(state-of-the-art) MS-LSTM,而且在真實數據集Description上甚至超過了最流行的反向詞典系統(tǒng)OneLook。
圖6 中文數據集實驗結果
圖6給出了中文數據集上的實驗結果,其中Question數據集包含從互聯(lián)網搜集的中小學根據描述選擇或寫出詞語的題目。實驗結果與英文數據集上的結果類似。
圖7 目標詞義項數、詞頻和輸入描述對不同模型結果的影響
圖7給出了不同模型的性能受目標詞義項數、詞頻和輸入描述的影響的結果(以英文數據集為例)??梢钥闯鲈撐奶岢龅哪P陀懈鼜姷聂敯粜裕绕涫菍τ诘皖l詞仍然有很好的預測效果。
這篇論文提出一個受人的描述到詞的推斷過程啟發(fā)的多通道反向詞典模型,其包含詞性、詞素、詞類、義原四個特征預測器,在真實場景數據集上實現了最佳性能。
該文論文已經公開在 arXiv:https://arxiv.org/pdf/1912.08441,
代碼和數據已經放在GitHub:https://github.com/thunlp/MultiRD,
另外基于論文所提模型的在線反向詞典系統(tǒng)——萬詞王(WantWords)也已經上線:https://wantwords.thunlp.org/
如圖8所示,該系統(tǒng)不僅支持英文、中文反向查詞,還支持英漢、漢英跨語言反向查詞,能夠顯示候選詞的詞性、定義等基本信息,且支持按照詞性、單詞長度、詞形等對候選詞進行篩選,助你更快找到你想要的詞。
圖8 萬詞王在線反向詞典系統(tǒng)
參考文獻
[1] Brown, R., and McNeill, D. 1966. The tip of the tongue phenomenon. Journal of verbal learning and verbal behavior 5(4):325–337.
[2] Benson, D. F. 1979. Neurologic correlates of anomia. In Studies in neurolinguistics. Elsevier. 293–328.
[3] Hill, F.; Cho, K.; Korhonen, A.; and Bengio, Y. 2016. Learning to understand phrases by embedding the dictionary. TACL 4:17–30.
[4] Kartsaklis, D.; Pilehvar, M. T.; and Collier, N. 2018. Mapping text to knowledge graph entities using multi-sense LSTMs. In Proceedings of EMNLP.
[5] Bilac, S.; Watanabe, W.; Hashimoto, T.; Tokunaga, T.; and Tanaka, H. 2004. Dictionary search based on the target word description. In Proceedings of NLP.
[6] Zock, M., and Bilac, S. 2004. Word lookup on the basis of associations: from an idea to a roadmap. In Proceedings of the Workshop on Enhancing and Using Electronic Dictionaries.
[7] Méndez, O.; Calvo, H.; and Moreno-Armend′ariz, M. A. 2013. A reverse dictionary based on semantic analysis using wordnet. In Proceedings of MICAI.
[8] Shaw, R.; Datta, A.; VanderMeer, D. E.; and Dutta, K. 2013. Building a scalable database-driven reverse dictionary. IEEE Transactions on Knowledge and Data Engineering 25:528540.
[9] Morinaga, Y., and Yamaguchi, K. 2018. Improvement of reverse dictionary by tuning word vectors and category inference. In Proceedings of ICIST.
[10] Hedderich, M. A.; Yates, A.; Klakow, D.; and de Melo, G. 2019. Using multi-sense vector embeddings for reverse dictionaries. In Proceedings of IWCS.
[11] Pilehvar, M. T. 2019. On the importance of distinguishing word meaning representations: A case study on reverse dictionary mapping. In Proceedings of NAACL.
雷鋒網 AI 科技評論報道 雷鋒網雷鋒網雷鋒網
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。