讓計算機明白「天天」代表「每一天」之后，如何避免讓它認為「爸爸」代表「每個爸」

本文作者： sanman

2018-08-03 18:42

導語：漢語形態(tài)語義的類比推理

雷鋒網(wǎng) AI 科技評論按：類比推理是反映語言規(guī)則的一種高效方式，本文將介紹一種漢語語言推理任務，論文作者來自北京師范大學和中國人民大學，論文題為：漢語形態(tài)語義關系的類比推理（論文地址：http://aclweb.org/anthology/P18-2023）。該論文在 ACL 2018大會上發(fā)表，相關資源在Github發(fā)布后獲得了超過2000星好評。雷鋒網(wǎng)將論文內(nèi)容概括如下（感謝論文作者對本文的審核和修改）。

類比推理可以很好地刻畫語言規(guī)則，舉例說明，「人」等價于person，「人人」則等價于英文的 every person，那么如果「天」代表 day，我們就可以類比推理「天天」代表 every day。目前類比推理也是評估詞嵌入的一個可靠方法。類比推理還可以用于詞形轉(zhuǎn)換、語義關系探測和翻譯未知詞等任務。但是不同語言之間擁有很大的形態(tài)差異，類比推理針對各個語言的研究也不盡相同。以漢語來說，漢語是公認的缺乏詞形變化的分析性語言。目前漢語類比推理的相關工作也屈指可數(shù)，僅有的中文類比數(shù)據(jù)集也只是英文數(shù)據(jù)集的部分翻譯，且數(shù)據(jù)規(guī)模較小，只包含 134個中文詞，并且不涉及到任何語法知識。因此，作者團隊決定深入研究漢語類比推理，并且發(fā)布了一個標準 benchmark 用以評估中文詞嵌入（附帶 100 多個開源預訓練嵌入）。

在詞法關系方面，作者主要研究了兩個內(nèi)容，一是重疊（Reduplication），二是半詞綴（Semi-affixation）。所謂重疊就是詞語中的部分漢字以一定的形式發(fā)生重疊，從而引起語法或語義差異，作者總結出六種重疊模式，如下圖所示。

讓計算機明白「天天」代表「每一天」之后，如何避免讓它認為「爸爸」代表「每個爸」

以 A-A 為例，對于漢語中的名詞來說，這種結構可以表示“親屬關系”（爸->爸爸）或者表示“每一個”（天->天天），對于動詞來說，這種結構可以表示動作時間短暫或嘗試（看->看看），這種結構還能將形容詞轉(zhuǎn)為副詞（深->深深）。

由于漢語缺乏典型的詞綴，一些成分既發(fā)揮了類似詞綴的作用同時又能當作獨立使用的語素，這些成分按劉月華老師的觀點稱之為半詞綴。目前作者團隊總結了 21 個半前綴，和 41 個半后綴。例如，半前綴可以將數(shù)詞變?yōu)樾驍?shù)詞，如「第」（一->第一），半后綴還有將形容詞名詞化的能力，如「子」（胖->胖子）

在語義關系方面，作者團隊從地理、歷史、自然和人物四個方面提出了 28 種語義關系。舉個地域方面的例子，「浙江」是省名，「浙」是「浙江」簡稱，「杭州」是「浙江」省會，「越劇」是「浙江」代表戲劇，這就是他們之間的語義關系。通過語義關系可以形成類比問題（如「皖」是「安徽」的省會，那么「浙」是哪個省的省會？）。

為了滿足漢語類比推理任務的要求，作者團隊自建了 CA8 數(shù)據(jù)集（共17813 個問題），包含大量的類比問題，對語法和語義都有涉及。CA8 相較于之前翻譯自英文數(shù)據(jù)集的 CA_translated 有很大改進。如下圖所示。

讓計算機明白「天天」代表「每一天」之后，如何避免讓它認為「爸爸」代表「每個爸」

最后，作者的實驗基于 68 種形態(tài)關系和 28 種語義關系，他們采用基于詞向量的計算方法來挑戰(zhàn)這個任務。實驗結果表明，向量表示模型、上下文特征和訓練語料庫都對漢語類比推理有重要影響。同時實驗也證明了 CA8 的確是評價漢語詞嵌入的可靠 benchmark。 CA8 和同期發(fā)布的上百種中文詞向量資源將成為漢語 NLP 任務的堅實基礎。論文相關資源和代碼在Github發(fā)布以來，已獲得超過2000星，是今年NLP領域最受歡迎的項目之一。

以上就是雷鋒網(wǎng)對于這篇論文的全部介紹。

詳情請查看論文：http://aclweb.org/anthology/P18-2023

Github項目：https://github.com/Embedding/Chinese-Word-Vectors

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

sanman

編輯

發(fā)私信

當月熱門文章

讓計算機明白「天天」代表「每一天」之后，如何避免讓它認為「爸爸」代表「每個爸」

讓計算機明白「天天」代表「每一天」之后，如何避免讓它認為「爸爸」代表「每個爸」