0
本文作者: 奕欣 | 2017-06-16 09:41 |
CoNLL 系列評測是自然語言處理領域影響力最大的技術評測,每年由 ACL 的計算自然語言學習會議(Conference on Computational Natural Language Learning,CoNLL)主辦。在今年 CoNLL-2017 評測(http://universaldependencies.org/conll17/)上,哈工大社會計算與信息檢索研究中心取得第四名的佳績,這也是亞洲團隊所取得的最好成績。為此,雷鋒網(wǎng) AI 科技評論榮幸地邀請到了哈爾濱工業(yè)大學計算機學院副教授車萬翔博士做了一次專訪,探討哈工大團隊本次參賽的技術細節(jié)。
車萬翔博士,哈爾濱工業(yè)大學計算機學院副教授、博士生導師,斯坦福大學訪問學者,合作導師 Christopher Manning 教授?,F(xiàn)任中國中文信息學會計算語言學專業(yè)委員會委員、青年工作委員會副主任;中國計算機學會高級會員、YOCSEF 哈爾濱主席。主要研究領域為自然語言處理,在 ACL、EMNLP、AAAI、IJCAI 等國內(nèi)外高水平期刊和會議上發(fā)表學術論文 40 余篇,其中 AAAI 2013 年的文章獲得了最佳論文提名獎,出版教材 2 部,譯著 2 部。目前承擔國家自然科學基金、973 等多項科研項目。負責研發(fā)的語言技術平臺(LTP)已被 600 余家單位共享,提供的在線「語言云」服務已有用戶 1 萬余人,并授權給百度、騰訊、華為等公司使用。2009 年,獲 CoNLL 國際多語種句法和語義分析評測第 1 名。2016 年獲黑龍江省科技進步一等獎;2015 和 2016 連續(xù)兩年獲得 Google Focused Research Award(谷歌專注研究獎);2012 年,獲黑龍江省技術發(fā)明獎二等獎;2010 年獲錢偉長中文信息處理科學技術獎一等獎、首屆漢王青年創(chuàng)新獎等多項獎勵。
雷鋒網(wǎng) AI 科技評論:首先恭喜車老師的哈工大團隊獲得了 CoNLL - 2017 的第四名。今年的評測任務為面向生文本的多語言通用依存分析,是否能和我們簡單介紹一下今年的比賽賽制及情況?
車萬翔博士:謝謝雷鋒網(wǎng)的采訪,很高興借此機會分享我們參加此次評測的一些經(jīng)驗和教訓。
今年的 CoNLL 評測任務為:Multilingual Parsing from Raw Text to Universal Dependencies,即面向生文本的多語言通用依存分析。從生文本(往往是篇章)出發(fā),需要進行分句、分詞、形態(tài)學分析、詞性標注、依存句法分析等。此次評測提供了 45 種語言的 64 個多領域通用依存樹庫作為訓練資源,最終面向 49 種語言的 81 個樹庫進行評測,其中包含 4 種訓練數(shù)據(jù)中未出現(xiàn)的資源稀缺語言以及多種跨領域數(shù)據(jù)。全部數(shù)據(jù)來自 Google 、斯坦福等單位發(fā)起的通用依存樹庫(http://universaldependencies.org/),該數(shù)據(jù)的特點是雖然語言眾多,但是統(tǒng)一制定了詞性標注和句法分析的標注規(guī)范。最終評價指標為在全部樹庫上依存分析任務的平均 LAS(依存標簽準確率)。
評測組織者包括 Google,查理大學(捷克),烏普薩拉大學(瑞典),圖爾庫大學(芬蘭)等。數(shù)據(jù)提供及相關支持來自斯坦福大學、劍橋大學、IBM Research 等單位。
2016 年 12 月 11 日評測對外發(fā)布并開始接受報名,報名截止日期為 2017 年 4 月 15 日,共有包括卡內(nèi)基梅隆大學、華盛頓大學、多倫多大學、牛津大學、愛丁堡大學、東京大學、 IBM 研究院、Facebook 等在內(nèi)的 113 支隊伍報名參賽。最終評測在 5 月 8 日到 14 日之間進行。
值得一提的是,此次評測運行在 TIRA 系統(tǒng)(http://www.tira.io/)之上。TIRA 為每支參賽隊伍提供了一臺虛擬機,供運行參評系統(tǒng)。評測期間,參評系統(tǒng)對組織者提供的隱藏測試數(shù)據(jù)進行分析并獲得最終的評測結果,這保證了參賽隊伍看不到測試數(shù)據(jù),防止發(fā)生作弊情況。
雷鋒網(wǎng) AI 科技評論:哈工大參賽系統(tǒng)的依存句法分析是如何實現(xiàn)的?團隊為何采用了基于轉移的分析方式?
車萬翔博士:目前依存分析領域兩大主流方法分別是基于轉移(Transition-based)和基于圖(Graph-based)的依存分析。基于轉移的方法是,構建一條從初始轉移狀態(tài)到終結狀態(tài)的轉移動作序列,在此過程中逐步生成依存樹。其依存分析模型的目標是得到一個能夠準確預測下一步轉移動作的分類器。而基于圖的算法將依存分析轉換為在有向完全圖中求解最大生成樹的問題,是基于動態(tài)規(guī)劃的一種圖搜索算法。相較之下,基于轉移的方法能獲得更大范圍內(nèi)的特征(基于圖的方法的可選特征受到動態(tài)規(guī)劃的限制),此外,由于我們采用了貪婪搜索,因此基于轉移的方法在預測時有相對更快的速度。除了以上兩點之外,近年來,有許多基于轉移的依存分析研究工作中將神經(jīng)網(wǎng)絡利用進來,有效提高了該方法的性能,而我們也一直在從事這方面的研究。因此我們最終選擇了基于轉移的分析方法。最終我們的系統(tǒng)在僅使用 1 個 CPU、8 GB 內(nèi)存(實際使用了不到 4 GB)的虛擬機上,以較短的時間完成了全部語言的評測。
基于轉移的方法的轉移系統(tǒng)一般包括保存待處理詞的緩存,保存正在處理詞的棧和歷史轉移動作。我們采用的是基于轉移的 List-based Arc-eager 算法(Choi and McCallum, 2013),該算法的轉移系統(tǒng)比一般的轉移系統(tǒng)多了一個雙向隊列,用于處理非投射現(xiàn)象,因此可以分析非投射樹(弧之間有交叉的樹)。
雷鋒網(wǎng) AI 科技評論:在本次比賽中,團隊基于 Stack LSTM 的基礎,采用了 Bi-LSTM Subtraction 更好地學習緩存表示,它的主要原理是怎樣的?而在采用 Incremental Tree-LSTM 對棧中的子樹進行建模的過程中,主要有哪些難點?
車萬翔博士:在 Stack LSTM parser 中,只用一個單向 LSTM 對緩存中所有詞進行建模,這樣會損失已經(jīng)不在緩存中的詞的信息。為了利用這部分信息,我們首先用一個 Bi-LSTM 對整個句子進行建模,從而獲得每個詞的正向和反向 LSTM 隱層輸出(分別稱為該詞的正向表示和反向表示)。在每個轉移狀態(tài)中,用當前緩存第一個詞的反向表示減去最后一個詞的反向表示,拼接上最后一個詞的正向表示減第一個詞的正向表示,就獲得了當前緩存的表示向量。簡單來說,就是用一個句子片段的頭尾詞的表示向量之差來表示這個片段。
在 Stack LSTM parser 中,使用遞歸神經(jīng)網(wǎng)絡(RecNN)逐步組合子樹中的詞和其子節(jié)點(每次組合一對),而在 Tree-LSTM 中,一個詞和其所有子節(jié)點是同時組合的。在處理較大的子樹的時候,遞歸神經(jīng)網(wǎng)絡可能遇到梯度消失問題。而 Tree-LSTM 則一定程度上緩解了梯度消失問題。由于 Tree-LSTM 中一個詞和其所有子節(jié)點是同時組合的,而在依存分析過程中,一個詞的子節(jié)點是逐個找到的,因此主要的難點就是如何在每找到一個詞的子節(jié)點之后就進行一次更新。我們的解決方法是每次子樹更新的時候,找到一個詞的所有已找到的子節(jié)點,將它們與該詞同時組合。事實上在分析過程中,還存在一種情況,即一個詞的所有子節(jié)點都找到后,其子節(jié)點又找到了子節(jié)點,要處理這種情況,需要在每個詞找到一個子節(jié)點后同時更新它的所有祖先節(jié)點。但考慮到分析速度問題,我們忽略了這種情況,仍然只更新找到子節(jié)點的詞本身。系統(tǒng)框架如下圖所示:
雷鋒網(wǎng) AI 科技評論:根據(jù)賽制的要求,任務中包含了 4 種訓練數(shù)據(jù)中未出現(xiàn)的資源稀缺語言以及多種跨領域數(shù)據(jù)。那么針對資源稀缺的語言,團隊采用的是什么解決方法?
車萬翔博士:我們采用模型遷移(model transfer)的方法,充分利用資源豐富語言的訓練資源,來幫助對資源稀缺語言的句法分析。具體來講,對于一種資源稀缺語言(目標語言),我們首先根據(jù)語言的形態(tài)學特征(typology)來選擇與其最接近的一種(或多種)語言作為其源語言。利用源語言的訓練資源,我們可以學習一個句法分析器,然后將其應用于目標語言。這種方法最大的難點是由于源語言和目標語言使用不同的詞表所帶來的「詞匯化特征鴻溝」。為了解決這個問題,我們使用了本團隊在 ACL 2015, AAAI 2016 中所提出的跨語言詞匯分布表示(word embedding)以及布朗聚類(Brown cluster)學習算法,使得不同語言之間的句法分析模型能夠進行「無縫」遷移。如下圖所示:
此外,在目標語言端存在少量標注數(shù)據(jù)的情況下,我們利用這些數(shù)據(jù)對遷移模型進行精調(diào)(fine-tuning),更顯著地提升了模型在目標語言端的性能。
類似的方法也被應用于評測中對跨領域平行數(shù)據(jù)的分析,即:利用資源豐富的源領域數(shù)據(jù)來幫助對于資源較少的目標領域數(shù)據(jù)的分析,也取得了非常顯著的性能提升。
雷鋒網(wǎng) AI 科技評論:作為全球第四、亞洲第一的團隊,您認為哈工大還可以從哪些方面提升評測系統(tǒng)的準確性?
車萬翔博士:據(jù)目前我們能獲得的材料,排名第一的斯坦福大學在詞性標注環(huán)節(jié)取得了非常好的結果(準確率比第二名高 2%),我們都知道,詞性對句法分析的影響非常大,因此如何充分利用語言的特性,尤其是那些形態(tài)學豐富語言(在本次評測中這些語言占絕大部分)的特性,獲得更好的詞性標注結果,是進一步提升評測系統(tǒng)準確率的一個可行方案。我們在此次評測中也充分考慮了我們所擅長語言的特性,如對漢語(繁體)、日語和越南語這些語言研發(fā)了專門的分詞系統(tǒng),最終有效提高了這些語言句法分析的準確率。
另外,本次評測排名二、三位的系統(tǒng)均采用了多個系統(tǒng)進行集成學習的方法,除了基于轉移的系統(tǒng)外,他們還利用了基于圖的依存句法分析系統(tǒng)。雖然將這些系統(tǒng)進行集成會取得更好的效果,但是會極大地降低句法分析系統(tǒng)的速度,因此我們本次評測并沒有采用復雜的集成學習方法。當然,為兼顧這兩方面,我們也正在研究如何在不損失系統(tǒng)效率的前提下,達到集成學習的效果。我們的初步試驗已經(jīng)取得了不錯的效果。
雷鋒網(wǎng) AI 科技評論:本次參賽的其它團隊包括了 CMU、斯坦福等多間名校,也有像 Facebook 的企業(yè),但從排名結果上看,排在前列的清一色都是高校,且得分非常出色。您認為高校取得大比例優(yōu)勢的原因可能在哪些地方?
車萬翔博士:句法分析是自然語言處理的核心且基礎的研究問題,無法像機器翻譯、問答系統(tǒng)一樣直接對終端用戶提供服務,所以目前看還沒有引起企業(yè)的廣泛關注,而從事基礎研究的高校對其更感興趣,個別企業(yè)即便應用句法分析,往往也是直接向高校購買使用權。而近年來,隨著句法分析技術的成熟,它已在細粒度情感分析、關系抽取等很多應用中發(fā)揮了良好的效果,相信這項技術會引起越來越多企業(yè)的興趣和重視。
雷鋒網(wǎng) AI 科技評論:您的團隊此前在 2005、2008 及 2009 年的 CoNLL 上都獲得了優(yōu)異的成績,鑒于每年的任務類型與難度都不同,是否能和我們介紹一下 CoNLL 歷年任務的整體變化趨勢?是否會向解決產(chǎn)業(yè)界的實際問題靠攏?
車萬翔博士:2005 年,我們參加了 CoNLL 組織的語義角色標注評測;2008 參加了英文句法分析和語義角色標注的聯(lián)合評測(我們獲得了第二名);2009 參加了 7 種語言的句法分析和語義角色標注聯(lián)合評測(我們獲得了第一名),接著幾年相繼舉行了指代消解、語法糾錯、篇章關系分析等評測。CoNLL 每年會征集評測題目,最終根據(jù)研究內(nèi)容是否前沿、標注數(shù)據(jù)是否高質(zhì)量、組織單位經(jīng)驗是否豐富等方面評選出一項最終的評測內(nèi)容。根據(jù) CoNLL 的傳統(tǒng),相關的評測往往會連續(xù)舉行兩年。最終的評測數(shù)據(jù)會向學術界公開以便開展后續(xù)的研究,所以即使評測結束,也會有大量的研究工作在這些數(shù)據(jù)上進行。
之前的 CoNLL 評測都是學術界主導的,所以內(nèi)容多偏向自然語言處理的基礎研究問題,隨著自然語言處理技術逐漸受到產(chǎn)業(yè)界的重視,相信以后會有越來越多企業(yè)的參與,因此不排除會組織一些具有面向實際應用的評測。
雷鋒網(wǎng) AI 科技評論:哈工大社會計算與信息檢索研究中心經(jīng)過多年技術積累研發(fā)的「語言技術平臺(LTP),為產(chǎn)業(yè)界及學術界提供多種高效精準的自然語言處理技術。目前,學術版 LTP 已共享給 500 多家研究機構免費使用,百度、騰訊、華為、金山等企業(yè)付費使用 LTP 商業(yè)版本。想了解下目前 LTP 的發(fā)展狀況?
車萬翔博士:LTP 除了您說的離線版本外,還提供在線服務,我們將其命名為「語言云」(http://www.ltp-cloud.com/)。開發(fā)者可以直接在線調(diào)用 LTP 的各項服務,而無需購置額外的硬件和配置自己的運行環(huán)境,同時還能獲得最新的功能。
在研究上,目前的重點是語義依存圖分析,即跨越句法分析和語義角色標注兩個階段,直接分析句子中所有可能存在的實詞間的語義關系。目前我們已經(jīng)標注了 2 萬句語義依存圖語料庫,并于 2012 和 2016 年組織了兩次 SemEval 的國際評測。
另外,我們也在逐步使用最新的深度學習模型更新各個模塊,目前依存句法分析、語義角色標注和語義依存圖分析等模塊已經(jīng)完成升級,而考慮到運行速度等原因,更底層的分詞、詞性標注和命名實體模塊仍然使用的是基于人工特征的模型。因此,如何對這些深度學習模型進行加速也是我們的一個研究課題。
雷鋒網(wǎng) AI 科技評論:在句法語義分析領域,目前還有哪些亟待解決的問題?作為在這一領域走在前沿的高校,哈工大計劃從哪些方面入手?
車萬翔博士:與圖像處理、語音識別不同,句法語義分析任務是語言學家創(chuàng)造的研究內(nèi)容,因此普羅大眾很難參與到數(shù)據(jù)的標注中,導致這些任務很難獲得充足的訓練數(shù)據(jù)。所以如何解決數(shù)據(jù)不足是句法語義分析領域一個亟待解決的問題。我們所提出的基于「偽數(shù)據(jù)」的方法可以很好的彌補這一不足。所謂「偽數(shù)據(jù)」,指的是不曾面向所研究的任務進行人工標注的帶標簽訓練數(shù)據(jù),標簽是樣本的近似答案(偽),而不是精確答案。如我們之前介紹的利用多語言這種「偽數(shù)據(jù)」,使用模型遷移的方法幫助句法語義分析;另外,多種自然語言處理任務或者同一任務的不同規(guī)范數(shù)據(jù)也可以互相幫助,我們就曾提出多使用多任務學習的方法達到這一目的。
作為底層技術,句法語義分析最終的目標是幫助上層應用,然而目前的句法語義分析標準都是由語言學家創(chuàng)造的,而這些標準是否適用于上層應用呢?對于不同的應用,是否應該采用不同的標準呢?這些問題可能是除準確率不高外,句法語義分析在應用時所面臨的最主要問題。因此,我們有必要使用自動的方法,為不同的任務歸納出自適應的句法語義分析結果,從而提高其適應性,更好的幫助上層應用提高分析精度。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。