AAAI論文解讀：基于轉(zhuǎn)移的語(yǔ)義依存圖分析（11月24日周五晚8點(diǎn)直播）

本文作者：奕欣

2017-11-21 16:47

專(zhuān)題：AAAI 2018

導(dǎo)語(yǔ)：本文介紹的工作來(lái)源于哈工大SCIR實(shí)驗(yàn)室錄用于 AAAI 2018 的論文

雷鋒網(wǎng)AI科技評(píng)論按：本文轉(zhuǎn)載自微信公眾號(hào) 哈工大SCIR ，雷鋒網(wǎng)獲授權(quán)轉(zhuǎn)載。

值得一提的是，本周五（11 月 24 日）晚上 8 點(diǎn)，第一作者王宇軒將在雷鋒網(wǎng)旗下頻道AI慕課學(xué)院（http://www.mooc.ai/）進(jìn)行第 34 期的 GAIR 大講堂直播，主題為《AAAI論文解讀：基于轉(zhuǎn)移的語(yǔ)義依存圖分析》，掃描本文底部海報(bào)AI科技評(píng)論二維碼，添加社長(zhǎng)微信，備注「王宇軒」即可。

論文作者：王宇軒，車(chē)萬(wàn)翔，郭江，劉挺

引言

本文介紹的工作來(lái)源于我實(shí)驗(yàn)室錄用于 AAAI 2018 的論文《A Neural Transition-Based Approach for Semantic Dependency Graph Parsing》。

語(yǔ)義依存圖是近年來(lái)提出的對(duì)樹(shù)結(jié)構(gòu)句法或語(yǔ)義表示的擴(kuò)展，它與樹(shù)結(jié)構(gòu)的主要區(qū)別是允許一些詞擁有多個(gè)父節(jié)點(diǎn)，從而使其成為有向無(wú)環(huán)圖（direct edacyclic graph，DAG）。（我實(shí)驗(yàn)室在 SemEval-2012 上組織了世界上最早的語(yǔ)義依存（樹(shù)）分析技術(shù)評(píng)測(cè)，并隨后將其擴(kuò)展到語(yǔ)義依存圖，在 SemEval-2016 上組織了相關(guān)評(píng)測(cè)。圖 1 和圖 2 分別給出同一句話的句法依存樹(shù)和語(yǔ)義依存圖的例子，更多有關(guān)中文語(yǔ)義依存圖的信息可以參考 http://mp.weixin.qq.com/s/bvm6sISUsUEhOpTOV-NxSg）

因此要獲得句子的語(yǔ)義依存圖，就需要對(duì)這種 DAG 進(jìn)行分析。然而目前大多數(shù)工作集中于研究依存樹(shù)結(jié)構(gòu)，少有人研究如何對(duì) DAG 進(jìn)行分析。

本文提出一種基于轉(zhuǎn)移的分析器，使用 list-based arc-eager 算法的變體對(duì)依存圖進(jìn)行分析，并提出了兩種有效的神經(jīng)網(wǎng)絡(luò)模塊，分別用于獲得轉(zhuǎn)移系統(tǒng)中緩存和子圖更好的表示。該系統(tǒng)在中英數(shù)據(jù)集上都取得了很好的結(jié)果，并且還能通過(guò)簡(jiǎn)單的模型融合方法進(jìn)一步提高性能。

AAAI論文解讀：基于轉(zhuǎn)移的語(yǔ)義依存圖分析（11月24日周五晚8點(diǎn)直播）

圖 1 句法依存樹(shù)

AAAI論文解讀：基于轉(zhuǎn)移的語(yǔ)義依存圖分析（11月24日周五晚8點(diǎn)直播）

圖 2 語(yǔ)義依存圖

1. 基于轉(zhuǎn)移的依存圖分析框架

目前依存樹(shù)分析領(lǐng)域兩大主流方法分別是基于轉(zhuǎn)移（Transition-based）和基于圖（Graph-based）的依存分析?；趫D的算法將依存分析建模為在有向完全圖中求解最大生成樹(shù)的問(wèn)題。基于轉(zhuǎn)移的依存分析算法將句子的解碼過(guò)程建模為一個(gè)有限自動(dòng)機(jī)問(wèn)題（類(lèi)比編譯器中的句法分析組件）。

本文中，我們選擇了基于轉(zhuǎn)移的依存分析方法。這種方法從起始轉(zhuǎn)移狀態(tài)開(kāi)始，不斷地執(zhí)行轉(zhuǎn)移動(dòng)作從一個(gè)狀態(tài)進(jìn)入另一個(gè)狀態(tài)，最終達(dá)到終結(jié)狀態(tài)，并將終結(jié)狀態(tài)對(duì)應(yīng)的樹(shù)（或圖）作為分析結(jié)果。轉(zhuǎn)移狀態(tài)包括一個(gè)保存正在處理中的詞的棧（Stack），一個(gè)保存待處理詞的緩存（Buffer），和一個(gè)記錄已經(jīng)生成的依存弧的存儲(chǔ)器。轉(zhuǎn)移動(dòng)作通常包括如移進(jìn)、規(guī)約并生成依存弧等。數(shù)據(jù)驅(qū)動(dòng)的基于轉(zhuǎn)移依存句法分析的目標(biāo)是訓(xùn)練一個(gè)分類(lèi)器。這個(gè)分類(lèi)器對(duì)給定轉(zhuǎn)移狀態(tài)預(yù)測(cè)下一步要執(zhí)行的轉(zhuǎn)移動(dòng)作。

如圖 2 所示，依存圖與依存樹(shù)有兩種主要區(qū)別。

第一，依存圖中存在交叉弧。傳統(tǒng)轉(zhuǎn)移算法需要通過(guò)添加緩存機(jī)制來(lái)解決交叉弧的問(wèn)題。Choi 等人 2013 年提出的 List-based Arc-eager 算法 [1] 就是這樣一思路的代表。List-based Arc-eager 算法在前文介紹的轉(zhuǎn)移系統(tǒng)基礎(chǔ)上，增加了一個(gè)雙向隊(duì)列（Deque）用于保存暫時(shí)跳過(guò)的詞，來(lái)生成交叉弧。

第二，依存圖中的詞可能存在多個(gè)父節(jié)點(diǎn)。導(dǎo)致傳統(tǒng)轉(zhuǎn)移算法無(wú)法產(chǎn)生依存圖的主要原因是：這些算法為了保證了最終生成的是一棵依存樹(shù)，往往規(guī)定一旦找到了一個(gè)詞的父節(jié)點(diǎn)，這個(gè)詞就應(yīng)立即被規(guī)約。為了使我們的轉(zhuǎn)移算法能夠產(chǎn)生依存圖結(jié)構(gòu)，我們?cè)?Choi 等人的基礎(chǔ)上修改了轉(zhuǎn)移動(dòng)作的執(zhí)行條件，使得找到父節(jié)點(diǎn)的詞緩存在雙向隊(duì)列中而不被規(guī)約，這為接下來(lái)的轉(zhuǎn)移動(dòng)作找到該詞的其它父節(jié)點(diǎn)提供了可能，從而生成語(yǔ)義依存圖。圖 3 給出用修改后的算法生成語(yǔ)義依存圖的具體流程。

AAAI論文解讀：基于轉(zhuǎn)移的語(yǔ)義依存圖分析（11月24日周五晚8點(diǎn)直播）

圖 3 修改后的 List-based Arc-eager 算法生成語(yǔ)義依存圖的流程

2. 基于 Stack LSTM 的分類(lèi)器

解決了轉(zhuǎn)移系統(tǒng)的問(wèn)題，接下來(lái)就需要選擇一個(gè)合適的分類(lèi)器在每個(gè)轉(zhuǎn)移狀態(tài)下預(yù)測(cè)出下一步要執(zhí)行的轉(zhuǎn)移動(dòng)作。我們選擇了 Dyer 等人在 2015 年提出的 Stack-LSTM[2] 作為基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)學(xué)習(xí)轉(zhuǎn)移系統(tǒng)中的棧、雙向隊(duì)列、緩存和歷史轉(zhuǎn)移動(dòng)作序列中的信息。（關(guān)于 Stack LSTM 的具體介紹可以參考 http://mp.weixin.qq.com/s/QvHTUAicgf257wQwkRn3cQ）

為了更好地獲得轉(zhuǎn)移狀態(tài)的表示，我們?cè)谏鲜鼋Y(jié)構(gòu)的基礎(chǔ)上提出了 2 個(gè)有效的神經(jīng)網(wǎng)絡(luò)模塊——Bi-LSTM Subtraction 和 Incremental Tree-LSTM，分別對(duì)轉(zhuǎn)移過(guò)程中的緩存和子圖進(jìn)行建模。圖 4 給出了該模型的整體結(jié)構(gòu)圖。

AAAI論文解讀：基于轉(zhuǎn)移的語(yǔ)義依存圖分析（11月24日周五晚8點(diǎn)直播）

圖 4 依存圖分析器模型整體結(jié)構(gòu)圖

2.1 Bi-LSTM Subtraction

Dyer 等人的模型中簡(jiǎn)單地使用從右向左的單向 LSTM 的最后一個(gè)隱層狀態(tài)向量表示緩存中的所有信息。這種方法不但無(wú)法獲取緩存之外的詞（已被移入棧中或規(guī)約）的信息，也損失了從左向右的上下文信息。而且，我們認(rèn)為只用一個(gè)隱層狀態(tài)向量是無(wú)法很好地表示整個(gè)緩存中的信息的。因此，我們將緩存看作一個(gè)段，并用段頭和段尾的表示的差來(lái)表示整個(gè)段。此外，為了獲得緩存之外詞的信息，我們首先將整個(gè)句子輸入雙向 LSTM 中，用每個(gè)詞對(duì)應(yīng)的隱層狀態(tài)向量作為其表示 [3]。

AAAI論文解讀：基于轉(zhuǎn)移的語(yǔ)義依存圖分析（11月24日周五晚8點(diǎn)直播）

圖 5 Bi-LSTM Subtraction 結(jié)構(gòu)圖

例如圖 5 中計(jì)算緩存的表示時(shí)，先用「吃飯」的正向 LSTM 表示減去「太」的正向 LSTM 表示，獲得該段正向的表示，再用「太」的反向 LSTM 表示減去「吃飯」的反向 LSTM 表示，獲得該段反向的表示。二者拼接起來(lái)作為此時(shí)緩存的表示。

2.2 Incremental Tree-LSTM

Dyer 等人的模型中使用基于依存的遞歸神經(jīng)網(wǎng)絡(luò)（RecNN）來(lái)計(jì)算轉(zhuǎn)移過(guò)程中的子結(jié)構(gòu)，在處理較深的子結(jié)構(gòu)時(shí)，這種方法可能會(huì)遇到梯度消失問(wèn)題。為了解決該問(wèn)題，我們利用 Tree-LSTM[4] 對(duì)這些子結(jié)構(gòu)進(jìn)行建模。圖 6 顯示了我們提出的 Incremental Tree-LSTM 與基于依存的 RecNN 的區(qū)別。RecNN 通過(guò)遞歸地組合一個(gè)個(gè)父節(jié)點(diǎn)-子節(jié)點(diǎn)對(duì)來(lái)構(gòu)建子圖，而 Tree-LSTM 則能同時(shí)合并一個(gè)節(jié)點(diǎn)及其所有子節(jié)點(diǎn)。

AAAI論文解讀：基于轉(zhuǎn)移的語(yǔ)義依存圖分析（11月24日周五晚8點(diǎn)直播）

圖 6 Incremental Tree-LSTM 與基于依存的遞歸神經(jīng)網(wǎng)絡(luò)對(duì)比

由于基于轉(zhuǎn)移的依存圖分析的特點(diǎn)，我們使用的 Tree-LSTM 與一般的 Tree-LSTM 有兩點(diǎn)不同。首先，顯然該任務(wù)中需要建模的子結(jié)構(gòu)不一定是樹(shù)。但好在我們處理的依存圖不包括環(huán)，因此仍然能夠使用 LSTM。更重要的是，與一般的 Tree-LSTM 能夠同時(shí)獲得一個(gè)節(jié)點(diǎn)的所有子節(jié)點(diǎn)不同，在基于轉(zhuǎn)移的依存分析中，一個(gè)節(jié)點(diǎn)的子節(jié)點(diǎn)是逐個(gè)被找到的，因此我們需要不斷利用 Tree-LSTM 更新父節(jié)點(diǎn)信息。具體來(lái)說(shuō)，對(duì)于一個(gè)詞，每當(dāng)找到它的一個(gè)新子節(jié)點(diǎn)，就要將其所有已經(jīng)找到的子節(jié)點(diǎn)和其本身的表示輸入 Tree-LSTM 中計(jì)算它的新表示。例如圖 7 中的子圖構(gòu)建流程如下：

（1）用 Tree-LSTM 合并 A 和 B 的表示并將結(jié)果作為 A 的新表示；
（2）合并 B 和 C 的表示并將結(jié)果作為 B 的新表示；
（3）合并 A、D 的表示和 B 當(dāng)前的表示（b+c）并將結(jié)果作為 A 的新表示。

AAAI論文解讀：基于轉(zhuǎn)移的語(yǔ)義依存圖分析（11月24日周五晚8點(diǎn)直播）

圖 7 Incremental Tree-LSTM 中子圖的遞增式構(gòu)建

2.3 模型融合

我們的系統(tǒng)能通過(guò)一個(gè)簡(jiǎn)單的模型融合方法進(jìn)一步提高性能。具體來(lái)說(shuō)，就是在訓(xùn)練時(shí)使用不同隨機(jī)初始化種子訓(xùn)練多個(gè)模型。在預(yù)測(cè)時(shí)，用這些模型算出的分?jǐn)?shù)之和來(lái)選擇接下來(lái)的轉(zhuǎn)移動(dòng)作。

3. 實(shí)驗(yàn)結(jié)果

我們的系統(tǒng)在中英文數(shù)據(jù)集上都獲得了很好的實(shí)驗(yàn)結(jié)果，表 1 是 SemEval-2016 Task 9 中文數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。該數(shù)據(jù)集分為兩部分，分別是新聞集（NEWS）和小學(xué)課本集（TEXTBOOKS），前者句子較長(zhǎng)、較復(fù)雜，后者句子較短、較簡(jiǎn)單。該評(píng)測(cè)的評(píng)價(jià)指標(biāo)中最重要的兩個(gè)分別是弧標(biāo)簽的 F 值（LF）和有多父節(jié)點(diǎn)的詞的弧標(biāo)簽的 F 值（NLF）。

AAAI論文解讀：基于轉(zhuǎn)移的語(yǔ)義依存圖分析（11月24日周五晚8點(diǎn)直播）

表中前 5 個(gè)是其他參賽系統(tǒng)，2-stage (Ding et al. 2014) 是我們重新實(shí)現(xiàn)的 Ding 等人在 2014 年提出的一個(gè)兩步方法 [5]，先用傳統(tǒng)依存樹(shù)分析器生成樹(shù)結(jié)構(gòu)，再用 SVM 分類(lèi)器從規(guī)則產(chǎn)生的候選弧集合中選出一些弧加入其中從而得到依存圖結(jié)構(gòu)。BS-IT 是我們的系統(tǒng)。實(shí)驗(yàn)結(jié)果表明我們的系統(tǒng)在兩個(gè)數(shù)據(jù)集的各項(xiàng)評(píng)測(cè)指標(biāo)中都明顯超過(guò)其他系統(tǒng)。

AAAI論文解讀：基于轉(zhuǎn)移的語(yǔ)義依存圖分析（11月24日周五晚8點(diǎn)直播）

表 2 中列出了測(cè)試 BS 和 IT 模塊效果的實(shí)驗(yàn)，結(jié)果表明二者都能為基礎(chǔ)系統(tǒng)帶來(lái)性能提升。而二者同時(shí)使用時(shí)對(duì)系統(tǒng)性能提升更明顯。

4. 結(jié)語(yǔ)

本文提出了一個(gè)基于轉(zhuǎn)移的語(yǔ)義依存圖分析方法，利用 List-based Arc-eager 算法的變體實(shí)現(xiàn)了有向無(wú)環(huán)圖的生成。此外，本文還提出了兩種有效的神經(jīng)網(wǎng)絡(luò)模塊用于學(xué)習(xí)轉(zhuǎn)移系統(tǒng)中重要部分的表示。在中英數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了該方法的有效性。

5. 參考文獻(xiàn)

[1] Choi J D, McCallum A. Transition-based Dependency Parsingwith Selectional Branching[C]. Proceedings of the 51thAnnual Meeting of the Association for Computational Linguistics. 2013: 1052-1062.

[2] Dyer C, Ballesteros M, Ling W, et al. Transition-based Dependency Parsingwith Stack Long Short-Term Memory[C]. Proceedingsof Annual Meeting on Association forComputational Linguistics. 2015: 334–343.

[3] Kiperwasser E, Goldberg Y. Simple and Accurate DependencyParsing Using Bidirectional LSTM Feature Representations [J]. Transactions ofthe Association for Computational Linguistics. 2016: 313-327.

[4] Tai K S,Socher R, Manning C D. Improved Semantic Representations from Tree-StructuredLong Short-Term Memory Networks[C]. Proceedings of the 53rd Annual Meeting ofthe Association for Computational Linguistics and the 7th International JointConference on Natural Language Processing. 2015: 1556-1566.

[5] Ding Y,Shao Y, Che W, et al. Dependency graph based Chinese semantic parsing [M]. ChineseComputational Linguistics and Natural Language Processing Based on NaturallyAnnotated Big Data. Springer, Cham, 2014: 58-69.

本周五（11月24日）晚上8點(diǎn)，第一作者王宇軒將在雷鋒網(wǎng)旗下頻道AI慕課學(xué)院（http://www.mooc.ai/）進(jìn)行第34期的GAIR大講堂直播，主題為《AAAI論文解讀：基于轉(zhuǎn)移的語(yǔ)義依存圖分析》，掃描海報(bào)二維碼添加社長(zhǎng)微信，備注「王宇軒」即可。

AAAI論文解讀：基于轉(zhuǎn)移的語(yǔ)義依存圖分析（11月24日周五晚8點(diǎn)直播）