丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給sanman
發(fā)送

0

讓計算機明白「天天」代表「每一天」之后,如何避免讓它認為「爸爸」代表「每個爸」

本文作者: sanman 2018-08-03 18:42
導語:漢語形態(tài)語義的類比推理

雷鋒網(wǎng) AI 科技評論按:類比推理是反映語言規(guī)則的一種高效方式,本文將介紹一種漢語語言推理任務,論文作者來自北京師范大學和中國人民大學,論文題為:漢語形態(tài)語義關系的類比推理(論文地址:http://aclweb.org/anthology/P18-2023)。該論文在 ACL 2018大會上發(fā)表,相關資源在Github發(fā)布后獲得了超過2000星好評。雷鋒網(wǎng)將論文內(nèi)容概括如下(感謝論文作者對本文的審核和修改)。

類比推理可以很好地刻畫語言規(guī)則,舉例說明,「人」等價于person,「人人」則等價于英文的 every person,那么如果「天」代表 day,我們就可以類比推理「天天」代表 every day。目前類比推理也是評估詞嵌入的一個可靠方法。類比推理還可以用于詞形轉(zhuǎn)換、語義關系探測和翻譯未知詞等任務。但是不同語言之間擁有很大的形態(tài)差異,類比推理針對各個語言的研究也不盡相同。以漢語來說,漢語是公認的缺乏詞形變化的分析性語言。目前漢語類比推理的相關工作也屈指可數(shù),僅有的中文類比數(shù)據(jù)集也只是英文數(shù)據(jù)集的部分翻譯,且數(shù)據(jù)規(guī)模較小,只包含 134個 中文詞,并且不涉及到任何語法知識。因此,作者團隊決定深入研究漢語類比推理,并且發(fā)布了一個標準 benchmark 用以評估中文詞嵌入(附帶 100 多個開源預訓練嵌入)。

詞法關系方面,作者主要研究了兩個內(nèi)容,一是重疊(Reduplication),二是半詞綴(Semi-affixation)。所謂重疊就是詞語中的部分漢字以一定的形式發(fā)生重疊,從而引起語法或語義差異,作者總結出六種重疊模式,如下圖所示。

讓計算機明白「天天」代表「每一天」之后,如何避免讓它認為「爸爸」代表「每個爸」

以 A-A 為例,對于漢語中的名詞來說,這種結構可以表示“親屬關系”(爸->爸爸)或者表示“每一個”(天->天天),對于動詞來說,這種結構可以表示動作時間短暫或嘗試(看->看看),這種結構還能將形容詞轉(zhuǎn)為副詞(深->深深)。

由于漢語缺乏典型的詞綴,一些成分既發(fā)揮了類似詞綴的作用同時又能當作獨立使用的語素,這些成分按劉月華老師的觀點稱之為半詞綴。目前作者團隊總結了 21 個半前綴,和 41 個半后綴。例如,半前綴可以將數(shù)詞變?yōu)樾驍?shù)詞,如「第」(一->第一),半后綴還有將形容詞名詞化的能力,如「子」(胖->胖子)

語義關系方面,作者團隊從地理、歷史、自然和人物四個方面提出了 28 種語義關系。舉個地域方面的例子,「浙江」是省名,「浙」是「浙江」簡稱,「杭州」是「浙江」省會,「越劇」是「浙江」代表戲劇,這就是他們之間的語義關系。通過語義關系可以形成類比問題(如「皖」是「安徽」的省會,那么「浙」是哪個省的省會?)。

為了滿足漢語類比推理任務的要求,作者團隊自建了 CA8 數(shù)據(jù)集(共17813 個問題),包含大量的類比問題,對語法和語義都有涉及。CA8 相較于之前翻譯自英文數(shù)據(jù)集的 CA_translated 有很大改進。如下圖所示。

讓計算機明白「天天」代表「每一天」之后,如何避免讓它認為「爸爸」代表「每個爸」

最后,作者的實驗基于 68 種形態(tài)關系和 28 種語義關系,他們采用基于詞向量的計算方法來挑戰(zhàn)這個任務。實驗結果表明,向量表示模型、上下文特征和訓練語料庫都對漢語類比推理有重要影響。同時實驗也證明了 CA8 的確是評價漢語詞嵌入的可靠 benchmark。 CA8 和同期發(fā)布的上百種中文詞向量資源將成為漢語 NLP 任務的堅實基礎。論文相關資源和代碼在Github發(fā)布以來,已獲得超過2000星,是今年NLP領域最受歡迎的項目之一。

以上就是雷鋒網(wǎng)對于這篇論文的全部介紹。

詳情請查看論文:http://aclweb.org/anthology/P18-2023 

Github項目:https://github.com/Embedding/Chinese-Word-Vectors

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

讓計算機明白「天天」代表「每一天」之后,如何避免讓它認為「爸爸」代表「每個爸」

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說