丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

阿里巴巴AAAI 2018錄用論文:將句法信息加入實(shí)體表示模型

本文作者: 奕欣 2018-01-06 09:26 專題:AAAI 2018
導(dǎo)語:首先基于 Tree-GRU,把實(shí)體上下文的依存樹放入句子級別的表示。其次,利用句子間和句子內(nèi)部的注意力,來獲得含有目標(biāo)實(shí)體的句子集合的表示。

雷鋒網(wǎng) AI 科技評論按:AAAI 2018 將于 2 月 2 日 - 2 月 7 日 在美國新奧爾良舉行,雷鋒網(wǎng)(公眾號:雷鋒網(wǎng)) AI 科技評論也將到現(xiàn)場進(jìn)行一線報道。

在今年的 AAAI 2018 上,阿里巴巴共有 11 篇論文被錄用,并做了一系列的論文解讀。本文為阿里巴巴業(yè)務(wù)平臺事業(yè)部供稿,雷鋒網(wǎng) AI 科技評論經(jīng)授權(quán)發(fā)布。

論文名稱:Syntax-aware Entity Embedding for Neural Relation Extraction(句法敏感的實(shí)體表示用于神經(jīng)網(wǎng)絡(luò)關(guān)系抽?。?/p>

團(tuán)隊(duì)名稱:業(yè)務(wù)平臺事業(yè)部

作者:何正球,陳文亮,張梅山,李正華,張偉,張民

摘要

關(guān)系抽取任務(wù)大規(guī)模應(yīng)用的一個主要瓶頸就是語料的獲取。近年來基于神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取模型把句子表示到一個低維空間。這篇論文的創(chuàng)新在于把句法信息加入到實(shí)體的表示模型里。首先,基于 Tree-GRU,把實(shí)體上下文的依存樹放入句子級別的表示。其次,利用句子間和句子內(nèi)部的注意力,來獲得含有目標(biāo)實(shí)體的句子集合的表示。

研究背景和動機(jī)

關(guān)系抽取任務(wù)大規(guī)模應(yīng)用的一個主要瓶頸就是語料的獲取。遠(yuǎn)程監(jiān)督模型通過將知識庫應(yīng)用于非結(jié)構(gòu)化文本對齊來自動構(gòu)建大規(guī)模訓(xùn)練數(shù)據(jù),從而減輕對人工構(gòu)建數(shù)據(jù)的依賴程度,并使得模型跨領(lǐng)域適應(yīng)能力得到增強(qiáng)。然而,在利用遠(yuǎn)程監(jiān)督構(gòu)建語料的過程中,僅僅利用實(shí)體名稱進(jìn)行對齊,而不同實(shí)體在不同關(guān)系下應(yīng)該具有更加豐富的多樣的語義表示,從而導(dǎo)致錯誤標(biāo)注等問題。因此,一套更加豐富的實(shí)體表示顯得尤為重要。

另一方,基于語法信息的方法通常作用于兩個實(shí)體之間的關(guān)系上,而語法信息是可以更加豐富實(shí)體的表示的。因此,本文基于句法上下文的實(shí)體表示來豐富實(shí)體在不同關(guān)系模式下的語義,并結(jié)合神經(jīng)網(wǎng)絡(luò)模型處理關(guān)系抽取任務(wù)。

相關(guān)工作介紹

我們把相關(guān)的工作大致分成早期基于遠(yuǎn)程監(jiān)督的方法和近年來基于神經(jīng)網(wǎng)絡(luò)模型兩類。

為了解決關(guān)系抽取任務(wù)嚴(yán)重依賴于標(biāo)注語料的問題,Mintz et al.(2009)率先提出了基于遠(yuǎn)程監(jiān)督的方法構(gòu)建標(biāo)注語料。然而,這樣構(gòu)建的自動標(biāo)注語料含有大量的噪聲。為了緩解語料中噪聲帶來的影響,Riedel et al.(2010)將關(guān)系抽取看成是一個多實(shí)例單類別的問題。進(jìn)一步的,Hoffmann et al.(2011)和Surdeanu et al.(2012)采取了多實(shí)例多類別的策略。同時,采用最短依存路徑作為關(guān)系的一個語法特征。上述方法典型的缺陷在于模型的性能依賴于特征模板的設(shè)計(jì)。

近年來,神經(jīng)網(wǎng)絡(luò)被廣泛的應(yīng)用于自然語言處理任務(wù)上。在關(guān)系抽取領(lǐng)域,Socher et al.(2012)采用循環(huán)神經(jīng)網(wǎng)絡(luò)來處理關(guān)系抽取。Zeng et al.(2014)則構(gòu)建了端到端的卷積神經(jīng)網(wǎng)絡(luò),進(jìn)一步的,Zeng et al.(2015)假設(shè)多實(shí)例中至少有一個實(shí)例正確地表示了相應(yīng)的關(guān)系。相比于假設(shè)有一個實(shí)例表示一對實(shí)體的關(guān)系,Lin et al.(2016)通過注意力機(jī)制挑選正面的實(shí)例更充分的使用了標(biāo)注語料含有的信息。

以上這些基于神經(jīng)網(wǎng)絡(luò)的方法大多數(shù)都使用詞層次的表示來生成句子的向量表示。另一方面,基于語法信息的表示也受到了眾多研究者的青睞,其中最主要的即最短依存路徑( Miwa and Bansal (2016)和 Cai et al.(2016))。

主要方法

阿里巴巴AAAI 2018錄用論文:將句法信息加入實(shí)體表示模型

首先,基于依存句法樹,利用基于樹結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)(Tree-GRU)模型生成實(shí)體在句子級別的表示。如上圖所示,有別于僅僅使用實(shí)體本身,我們能夠更好地表達(dá)出長距離的信息。具體的實(shí)體語義表示如下圖所示。我們使用 Tree-GRU 來獲得實(shí)體的語義表示。

阿里巴巴AAAI 2018錄用論文:將句法信息加入實(shí)體表示模型

其次,利用基于子節(jié)點(diǎn)的注意力機(jī)制(ATTCE,上圖)和基于句子級別的實(shí)體表示注意力機(jī)制(ATTEE,下圖)來減輕句法錯誤和錯誤標(biāo)注的負(fù)面影響。

阿里巴巴AAAI 2018錄用論文:將句法信息加入實(shí)體表示模型

實(shí)驗(yàn)結(jié)果

本文在 NYT 語料上進(jìn)行了實(shí)驗(yàn)。最終結(jié)果如上圖所示。其中,SEE-CAT 和 SEE-TRAINS 分別是本文使用的兩種結(jié)合三種向量表示(句子的向量表示,兩個實(shí)體的向量表示)的策略。從圖中可以看出,本文提出的模型在相同數(shù)據(jù)集上取得了比現(xiàn)有遠(yuǎn)程監(jiān)督關(guān)系抽取模型更好的性能。

總結(jié)

本文的實(shí)驗(yàn)結(jié)果表明,更豐富的命名實(shí)體語義表示能夠有效地幫助到最終的關(guān)系抽取任務(wù)。

如果您也有論文被 AAAI 錄用 ,歡迎關(guān)注雷鋒網(wǎng) AI 科技評論(aitechtalk),在后臺留下聯(lián)系方式,雷鋒網(wǎng)將與您聯(lián)系,并進(jìn)行更多交流!

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

阿里巴巴AAAI 2018錄用論文:將句法信息加入實(shí)體表示模型

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說