丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

2

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

本文作者: 汪思穎 編輯:郭奕欣 2017-08-23 22:23 專題:EMNLP 2017
導語:研究自然語言處理的一定不能錯過

雷鋒網(wǎng) AI 科技評論按:本文作者徐阿衡,原文載于其個人主頁,雷鋒網(wǎng) AI 科技評論獲其授權發(fā)布。

8月16日,在北京中科院軟件研究所舉辦的“自然語言處理前沿技術研討會暨EMNLP2017論文報告會”上,邀請了國內(nèi)部分被 EMNLP 2017錄用論文的作者來報告研究成果。整場報告會分為文本摘要及情感分析、機器翻譯、信息抽取及自動問答、文本分析及表示學習四個部分。感覺上次的 CCF-GAIR 參會筆記寫的像流水賬,這次換一種方式做筆記。

本文分為四個部分,并沒有包含分享的所有論文。第一部分寫我最喜歡的論文,第二部分總結一些以模型融合為主要方法的論文,第三部分總結一些對模型組件進行微調(diào)的論文,第四部分是類似舊瓶裝新酒的 idea。

I like

Multimodal Summarization for Asynchronous Collection of Text, Image, Audio and Video

異步的文本、圖像、音視頻多模態(tài)摘要,一般的文本摘要關注的是 salience, non-redundancy,這里關注的是 readability, visual information,visual information 這里說的就是圖片信息,暗示事件的 highlights??紤]一個視頻新聞,本身有視覺模態(tài)和音頻模態(tài),通過 ASR,還可以產(chǎn)生文本模態(tài),問題是如何將這些模態(tài)連接起來,產(chǎn)生一個附帶精彩圖片的文本摘要呢? 這篇論文就在討論這個問題,整個模型輸入是一個主題的文本以及視頻,輸出是一段附圖片的文本摘要。

1、預處理:

視頻產(chǎn)生圖片:CV 基本思路,把 Video 切成一個個的 shots(鏡頭/段落),每個鏡頭可以 group(組合) 成一個 story(scene),每一個鏡頭還可以細分成 sub-shots,每個 sub-shot 可以用 key-frame 來表示,選擇關鍵幀作為視覺信息,同時認為長鏡頭的圖片相對于短鏡頭更重要,基于此對圖片重要性進行打分。
音頻產(chǎn)生文字:ASR。一方面語音識別結果并不十分準確,另一方面音頻模態(tài)會有一些音頻信號可以暗示我們哪些內(nèi)容是重要的,基于這兩點會產(chǎn)生兩個指導策略,稍后提到。

2、文本重要性打分:

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

 LexRank,句子是點,連線是重要性,進行隨機游走,針對音頻產(chǎn)生文字的兩個特性使用兩個指導策略:

  • 如果語音識別結果和文本句子語義相同,那么讓語音識別結果來推薦文本,反之不然;

  • 如果語音信號比較明顯,語音推薦文本,反之不然;

這兩條指導策略會提升文本可讀性。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

3、圖文匹配問題:

希望摘要能覆蓋視覺信息,能解釋圖片,所以需要做一個文本圖片分類器。圖像 vcr 解碼接兩層前向網(wǎng)絡,文本做一個高斯分布再求 fisher rank,也是接兩層前向網(wǎng)絡,最終將兩個文本映射到同一個語義空間,計算匹配度。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

一個問題是如何在復雜的句子里提出子句,作者提出了基于傳統(tǒng)語義角色標注的方法,利用中心謂詞提取匹配的 frame 信息(predicate, argument1, argument2),好處是可以抽取語義相對獨立的部分,還可以通過 frame 的設定(只取施、受、謂詞)過濾如時間等圖片很難反映的信息。

4、目標函數(shù):

提到了三個目標函數(shù):

  • 針對文本:對文本重要性獎勵、冗余性懲罰

  • 針對視覺:圖片重要性(鏡頭時長),是否被文本摘要覆蓋(是否有匹配)

  • 平衡視覺信息和文本信息

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

下面一篇 Affinity-Preserving Random Walk for Multi-Document Summarization 多文檔摘要也用到了圖排序模型,這里略過。

Reasoning with Heterogeneous Knowledge for Commonsense Machine Comprehension

聚焦兩個問題:如何去獲取并且表示常識知識?并且如何應用獲取到的常識知識進行推理? 論文嘗試從多個不同來源的異構知識庫當中獲取了相關的信息,并將這些知識統(tǒng)一表示成了帶有推理代價的推理規(guī)則的形式,采用一個基于注意力機制的多知識推理模型,綜合考慮上述所有的知識完成推理任務。

任務類型: 在 RocStories 數(shù)據(jù)集上,在給定一個故事的前 4 句話的情況下,要求系統(tǒng)從兩個候選句子當中選出一個作為故事的結尾。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

推理規(guī)則:統(tǒng)一將知識表示成如下的推理規(guī)則的形式,在關系 f 下,元素 Y 可以由元素 X 推出,其推理代價是 s。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

知識獲取

主要從不同來源獲取三類知識,包括:

  • 事件序列知識(Event Narrative Knowledge)

    捕捉事件之間的時間、因果關系(去了餐館 -> 要點餐)

    采用兩個模型來捕捉這個信息,一種是基于有序的 PMI 模型,另外一個基于Skip-Gram的向量化表示模型,本質(zhì)都是基于事件對在文本當中的有序共現(xiàn)的頻繁程度來計算推理規(guī)則的代價的。

  • 實體的語義知識(Entity semantic knowledge)

    捕捉實體之間的語義關系。

    以星巴克為例,捕捉的第一種關系是實體間的共指關系(coreference),比如說用“咖啡屋”來指代星巴克。從 Wordnet 來獲取實體間上下位關系的知識。cost 是 1 當且僅當 X 和 Y 是同義詞或者有上下位關系

    第二種關系是相關關系(associative),比如說出現(xiàn)星巴克時可能會出現(xiàn)“拿鐵咖啡”這一類與之相關的實體。通過 Wikipedia 中實體頁面的鏈接關系來得到實體間的相關關系知識,Cost 是兩個實體間的距離(Milne and Witten(2008).)

  • 情感的一致性知識(Sentiment coherent knowledge)

    捕捉元素間的情感關系

    故事的結尾和故事的整體的情感應該基本上保持一致,否則結尾就會顯得太突兀,那么這樣的結尾就不是一個好的結尾。從 SentiWordnet 上來獲得這種不同元素之間的情感一致性的知識。cost 為 1 if both subjective and have opposite sentimental polarity; 為 -1 if both subjective and have same sentimental polarity; 否則為 0

上述推理規(guī)則代價的計算方式不同,論文使用了一種類似于 Metric Learning的方式,通過在每個類別的推理規(guī)則上增加了一個非線性層來自動學習對不同類別的推理規(guī)則代價的校準。

另外,由于否定的存在會反轉事件關系以及情感關系的推理結果,論文對否定進行了特殊處理。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

知識推理

如何將規(guī)則用到閱讀理解之中?換句話說,就是在給定一個文檔和候選答案的基礎上,如何衡量候選答案是否正確?首先將文檔以及候選答案都劃分為元素,整個推理的過程就被轉化成了一個推理規(guī)則選擇以及對這個推理的合理性進行評估的過程。

重要假設:一組有效的推理應當要能夠覆蓋住結尾當中的所有元素。換言之,結尾當中出現(xiàn)的每一個元素,都應當能夠在原文當中找到它出現(xiàn)的依據(jù)。

對于同樣的一個文檔和候選答案,我們可以有多種多樣不同的推理。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

上面一個推理就是一組有效的推理,這組推理是很符合人的認知的。因為我們通常會通過 Mary 和 She 之間的實體共指關系、Restaurant 和 order 之間的序列關系以及 restaurant 和 food 之間的相關關系來判斷這個結果是不是成立的。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

這個就不怎么合理,因為我們不太會去考慮一個人和一個事件之間是不是有時序關系,以及考慮 walk to 這樣一個動作和 food 之間的聯(lián)系。

采用每一種推理的可能性是不同的,用 P(R|D,H)P(R|D,H) 來對這種推理的選擇建模,基于元素獨立性假設,得到下面的式子

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

是否選擇一條推理規(guī)則參與推理一個假設元素 hihi,取決于對于原文當中推理得到 hihi 的元素 djdj 的選擇,以及對于 djdj 到 hihi 之間推理關系的選擇。然后將這個概率分布重新定義了一個重要性函數(shù),與三個因子相關:

  • s(h,d)
    文檔中的元素與候選答案中元素的語義匹配程度

  • a(h,f) 以及 a(d,f)
    一個元素與這條推理規(guī)則的關系的一個關聯(lián)程度,使用一個注意力函數(shù)來建模這種關聯(lián)程度

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

將原文到候選的推理代價定義成其所有有效的推理的期望代價

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

使用一個 softmax 函數(shù)來歸一化所有候選的代價值,并且使用最大后驗概率估計來估計模型當中的參數(shù)。

實驗

三個 Baseline 進行了比較:

  • Narrative Event Chain (Chambers and Jurafsky, 2008)
    僅僅考慮是事件與事件之間的關聯(lián)信息

  • DSSM (Huang et al., 2013)
    將文檔和候選答案各自表示成了一個語義向量,并且計算它們之間的語義距離

  • LSTM 模型 (Pichotta and Mooney, 2015)
    通過對先前的事件進行序列建模來預測后面發(fā)生事件的概率。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

不同知識的影響
萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

每一種知識都能夠起到作用,移除任何一種知識都會導致系統(tǒng)的performance顯著地降低。

推理規(guī)則選擇方式加入 attention 機制的影響

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

其他

一是推理規(guī)則怎樣產(chǎn)生更多更復雜的推理?二是訓練數(shù)據(jù),一方面,常識閱讀理解數(shù)據(jù)還是很缺乏,可能需要半監(jiān)督或遠程監(jiān)督的方法來拓展訓練數(shù)據(jù);另一方面,可能需要擴展更多的數(shù)據(jù)源。

Neural Response Generation via GAN with an Approximate Embedding Layer

生成式聊天系統(tǒng)可以看作是一個特殊的翻譯過程,一個 question-answer pair 等價于 SMT 需要處理的一條平行語料,而 SMT 的訓練過程實際上也就等價于構建問題和答案當中詞語的語義關聯(lián)過程。NMT 作為 SMT 高級版可以用來實現(xiàn)聊天回復的自動生成。這種新的自動聊天模型架構命名為 Neural Response Generation(NRG)。

而現(xiàn)在 NRG 存在問題是生成的答案嚴重趨同,不具有實際價值,如對于任何的用戶 query,生成的結果都有可能是“我也覺得”或“我也是這么認為的”,這種生成結果被稱為 safe response。safe response 產(chǎn)生原因如下:

  • The data distribution of chat corpus

  • The fundamental nature of statistical models

聊天數(shù)據(jù)中詞語在句子不同位置的概率分布具有非常明顯的長尾特性,尤其在句子開頭,相當大比例的聊天回復是以“我”“也”作為開頭的句子,詞語概率分布上的模式會優(yōu)先被 decoder 的語言模型學到,并在生成過程中嚴重抑制 query 與 response 之間詞語關聯(lián)模式的作用,也就是說,即便有了 query 的語義向量作為條件,decoder 仍然會挑選概率最大的“我”作為 response 的第一個詞語,又由于語言模型的特性,接下來的詞語將極有可能是“也”……以此類推,一個 safe response 由此產(chǎn)生。

常見的解決方案包括:通過引入 attention mechanism 強化 query 中重點的語義信息;削弱 decoder 中語言模型的影響;引入 user modeling 或者外部知識等信息也能夠增強生成回復的多樣性。這些其實是對于模型或者數(shù)據(jù)的局部感知,如果從更加全局的角度考慮 safe response 的問題,就會發(fā)現(xiàn)產(chǎn)生 safe response 的 S2S 模型實際上是陷入了一個局部的最優(yōu)解,而我們需要的是給模型施加一個干擾,使其跳出局部解,進入更加優(yōu)化的狀態(tài),那么最簡單的正向干擾是,告知模型它生成的 safe response 是很差的結果,盡管生成這樣的結果的 loss 是較小的。這樣就開啟了生成式對抗網(wǎng)絡(Generative Adversarial Networks, GAN)在生成式聊天問題中的曲折探索。

將 GAN 引入聊天回復生成的思路:使用 encoder-decoder 架構搭建一個回復生成器G,負責生成指定 query 的一個 response,同時搭建一個判別器 D 負責判斷生成的結果與真正的 response 尚存多大的差距,并根據(jù)判別器的輸出調(diào)整生成器 G,使其跳出產(chǎn)生 safe response 的局部最優(yōu)局面。

一個重要的問題是如何實現(xiàn)判別器 D 訓練誤差向生成器 G 的反向傳播(Backpropagation)。對于文本的生成來說,一個文本樣本的生成必然伴隨 G 在輸出層對詞語的采樣過程,無論這種采樣所遵循的原則是選取最大概率的 greedy思想還是 beam searching,它實際上都引入了離散的操作,這種不可導的過程就像道路上突然出現(xiàn)的斷崖,阻擋了反向傳播的腳步,使對于 G 的對抗訓練無法進行下去。這篇論文就針對文本生成過程中的采樣操作帶來的誤差無法傳導的實際問題提出了解決方案。

論文為生成器 G 構建了一個 Approximate Embedding Layer(AEL 如圖中紅色矩形框中所示,其細節(jié)在圖右側部分給出),這一層的作用是近似的表達每次采樣過程,在每一個 generation step 中不再試圖得到具體的詞,而是基于詞語的概率分布算出一個采樣向量。這個操作的具體過程是,在每一個 generation step 里,GRU 輸出的隱狀態(tài) hihi 在加入一個隨機擾動 zizi 之后,經(jīng)過全連接層和 softmax 之后得到整個詞表中每個詞語的概率分布,我們將這個概率分布作為權重對詞表中所有詞語的 embedding 進行加權求和,從而得到一個當前采樣的詞語的近似向量表示(如圖中右側綠框所示),并令其作為下一個 generation step 的輸入。同時,此近似向量同樣可以用來拼接組成 fake response 的表示用于 D 的訓練。不難看出,這種對于采樣結果的近似表示操作是連續(xù)可導的,并且引入這種近似表示并不改變模型 G 的訓練目標。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

取得了不錯的效果。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

詳細戳首發(fā)!三角獸被 EMNLP 錄取論文精華導讀:基于對抗學習的生成式對話模型淺說

模型融合

把傳統(tǒng)模型和神經(jīng)網(wǎng)絡相結合。

Translating Phrases in Neural Machine Translation

目前的 NMT 里 decoder 一次生成一個單詞,不能進行 one-many 以及 many-many 的翻譯,也就是沒法做目標語言 phrase 的翻譯,而 SMT 能做,所以想法是把兩者結合。結合方法一般來說有兩種,一是 shallow,NMT 作為 feature 放到傳統(tǒng)框架進行預調(diào);二是 deep,SMT 給 NMT 做推薦,NMT 用神經(jīng)網(wǎng)絡的方式接收 SMT 的東西。這篇論文用的是第二種方式。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

SMT 先翻譯一遍,把 relevant target phrases 扔到 NMT 的 Phrase Memory 里,NMT 從 Phrase Memory 里讀取 target phrases 并進行打分,然后系統(tǒng)同時看 target phrase 和 word predictor 的結果,用一個 balancer 將 SMT 和 NMT 的優(yōu)勢結合起來,來判斷下一個是單詞還是短語的概率,來決定選哪個。所以其實產(chǎn)生的翻譯 y=y1,y2,…,yTuy=y1,y2,…,yTu其實有兩個碎片(fragments)組成,NMT 的 word predictor w=w1,w2,…,wKw=w1,w2,…,wK 以及 phrase memory 里存的相關短語 p=p1,p2,…pLp=p1,p2,…pL (這里的relevant target phrases 要滿足兩個條件:與原文相關(adequacy);不重復翻譯(coverage))

另外一點是作者還提出了基于 chunk 的翻譯,SMT 對 source 提取 Chunk 信息,把布什總統(tǒng)、美國政府這些作為 chunk 讓 SMT 預翻,然后把它們寫到 phrase memory 里,后續(xù)步驟不變。chunk 的實現(xiàn)主要是由 sequence tagging 完成,相同 tag 表示同一個 chunk,開始符號另外標記,比如 “information security” 被標注成 “NP _B NP”,然后新的輸入就變成原來的 word embedding 以及 chunking tag embedding。chunk 的好處在于限定了 source-side phrase 的信息,一方面減少了短語間的 overlap,另一方面提高了 decoding 的準確性。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

機器翻譯相關戳
NLP 筆記 - Machine Translation
NLP 筆記 - Neural Machine Translation

問題是 SMT 沒那么強(很難保證準確率),NMT 也沒那么弱(一個單詞一個單詞的翻譯也能把正確的短語翻譯出來)

Incorporating Relation Paths in Neural Relation Extraction

提出了對文本中的關系路徑進行建模,結合 CNN 模型 (Zeng, et al. (2014). Relation classification via convolutional deep neural network. CGLING) 完成關系抽取任務。
傳統(tǒng)基于 CNN 的方法,通過 CNN 自動將原始文本映射到特征空間中,以此為依據(jù)判斷句子所表達的關系

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

這種 CNN 模型存在的問題是難以理解多句話文本上的語義信息。比如說 A is the father of B. B is the father of C. 就沒法得出 A 和 C 的關系,基于此,論文提出了在神經(jīng)網(wǎng)絡的基礎上引入關系路徑編碼器的方法,其實就是原來的 word embedding 輸入加上一層 position embedding,position embedding 將當前詞與 head entity/tail entity 的相對路徑分別用兩個 vector 表示。然后用 αα 來平衡 text encoder(E) 和 path encoder(G)。

L(h,r,t)=E(h,r,t|S)+αG(h,r,t|P)

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

Encoder 還采用了多樣例學習機制(Multi-instances Learning),用一個句子集合聯(lián)合預測關系,句子集合的選擇方法有隨機方法(rand),最大化方法(max, 選最具代表性的),選擇-注意力機制(att),注意力機制的效果最好。

實驗結果:

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

之后可以繼續(xù)的兩個改進方向,一是對多步關系路徑進行建模,使得模型可以處理更復雜的語義情況,而是將文本中的關系路徑和知識圖譜中的關系路徑有機地結合,更好地完成關系抽取和知識圖譜補全的任務。

零件調(diào)整

對已有模型零部件的一些調(diào)整改造。

Towards a Universal Sentiment Classifier in Multiple languages

這里我覺得有意思的一點是作者模仿了 skip-gram 模型提出了一種同時訓練多語言的 embedding 的方法。一句話解釋就是通過中心詞來預測自身/其他語言周圍的前后詞。比如說雙語預料中,需要使中文能預測中文自身的周圍詞,英文能學習英文自身的周圍詞,還要通過對齊來學習中文來預測英文、英文來預測中文。skip-gram 相關戳 詞向量總結筆記(簡潔版)

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

C 作為 source language S 和 target language T 之間的平行語料,語料庫可以分為 CSCS 和 CTCT 兩部分,目標函數(shù)如下

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

然后就用一個 LR 模型進行情感分類。

Neural Machine Translation with Word Predictions

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

我們知道在 NMT 中,訓練成本主要來自于輸出層在整個 target vocabulary 上的 softmax 計算,為了減小這種 cost,各位學者做出了各種努力,比如說 Devlin et al. (2014) 從計算角度提出了 self-normalization 技術,通過改造目標函數(shù)把計算整個 matrix 的步驟優(yōu)化為只計算輸出層每一行的值(NLP 筆記 - Neural Machine Translation),而在 Neural Machine Translation with Word Predictions 這篇論文中,作者提出了一種減小 target vocabulary 的方法,主要用到了詞預測機制(word predictor)。

之前 MT 的目標是生成一個詞序列(ordered sequence),而現(xiàn)在 word predictor 的目標是生成 y1..yn 的詞,但是不考慮詞序(no order)。

和上圖一樣的 idea,word prediction 中,initial state(WPEWPE)要包含 target sentence 里的所有信息,hidden state(WP_D)要包含沒有被翻譯的詞的所有信息。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

PWPE(y|x)=∏j=1|y|PWPE(yj|x)PWPE(y|x)=∏j=1|y|PWPE(yj|x)

PWPD(yj,yj+1,…,y|y||y<j,x)=∏k=j|y|PWPD(yk|y<j,x)PWPD(yj,yj+1,…,y|y||y<j,x)=∏k=j|y|PWPD(yk|y<j,x)

這樣無論是效果和效率上都有了顯著提升

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

這個方法很好的一點是目標中的詞對詞預測來說是天然的標注,構造簡單。然而要注意的兩個點是 預測要準&預測要快,否則就失去了意義。還有個問題是,按理來說較大詞表質(zhì)量更好然而翻譯效率低,較小的詞表,像這篇論文提出的,翻譯某句話提前先預測生成一個新的小的詞表交給 decoder,效率毫無疑問會提升,但是質(zhì)量,為啥會更好?不是很理解,坐等論文。

Towards Bidirectional Hierarchical Representations for Attention-based Neural Machine Translation

對傳統(tǒng) tree-based encoder 的一個改進。傳統(tǒng)的 tree-based encoder 是 bottom-up 的結構,能抓局部信息卻捕捉不了全局信息

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

這篇論文對 tree-based encoder 做了改造,讓它既能捕捉局部的語義信息,又能捕捉全局的語義信息。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

bottom-up encoding 取得局部信息,top-down encoding 取得全局信息。對于 OOV(out-of-vocabulary) 問題,基于 sub-word 思想,這里單獨建立一個二叉詞法樹并將其融入原來的句法樹里。這樣如下圖所示,模型囊括了句子、短語、詞、sub-word 各種全局/局部信息,表達力 max。然而同樣帶來的問題是會產(chǎn)生重復信息,進而可能會造成重復翻譯。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

為解決重復翻譯的問題,或者說詞/短語向量的 balance,這里還引入了 attention 機制

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

效果有了一定提升。舉個例子說明 tree-based encoder 的優(yōu)勢。用普通的 sequence encoder 翻譯 PP 時會產(chǎn)生錯誤,普通的 tree-based 能翻譯好 PP,不過 境外 和 以外的地區(qū) 還是有一點差距的,新版 tree-decoder 翻譯就無壓力。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

遷移 idea

其實就是用已有的但可能用在別的方面的模型/思路解決現(xiàn)在的問題。

A Question Answering Approach for Emotion Cause Extraction

這一部分之前木有研究過,先來看一下什么是 emotion cause extraction

1 Document: 我的手機昨天丟了,我現(xiàn)在很難過。 (I lost my phone yesterday, and  I feel sad now. )

2 Emotion:Sad

3 Emotional Expression: 很難過

4 Emotion Cause: 我的手機昨天丟了

任務目標是根據(jù)文本信息及其中包含的情感表達抽取出情感原因。論文作者之前發(fā)過論文,用的是基于 dependency parsing 的方法,把情感原因轉化為樹的分類任務,但結果依賴 dependency parsing 的準確性,而且只能處理對子句/句子級別的原因,不能處理細粒度的短語級別的原因。所以這一篇轉換了思路,把 emotion cause extraction 問題轉化為 question-answering 問題,提出了一種基于卷積的多層 memory network 方法,結果比之前基于樹的方法提升了 2 個點。

1 Emotional Text => Reading Text

2 Emotional Words => Question/Query

3 Emotion Cause Binary Classification Results => Answer

用傳統(tǒng)的 memory network 作為基礎模型,reading text 用詞向量 embedding 表達,存到記憶單元,待判斷的情感詞的詞向量作為注意力單元,將 query 和 text 每個詞進行內(nèi)積操作,softmax 歸一化作為詞權重,用注意力的加權和作為整個句子的表達。為了引入詞語的上下文,用了類似卷積的注意力加權方法,每個詞的注意力由當前詞、前文詞、后文詞共同決定,加權過程中根據(jù)上下文注意力對不同位置的詞語進行加權,獲得以短語窗口為單位的加權結果,然后進行輸出。同時對記憶網(wǎng)絡做了多層的堆疊,以學習更深的特征。最后效果得到了提升,并且在短語級別的情感原因抽取上也取得了不錯的效果。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

問題來了,query 是怎么產(chǎn)生的呢?=> 數(shù)據(jù)集標注好了情感表達詞!

Earth Mover’s Distance Minimization for Unsupervised Bilingual Lexicon Induction

主要研究無監(jiān)督的雙語對齊方法,也就是能無監(jiān)督地聯(lián)系兩個詞向量空間,本質(zhì)上是需要詞向量空間之間,或者說詞向量分布之間距離的度量。用的 EMD 思想,目標就是尋找一個映射G,使得映射后的源語言詞向量分布和目標語言詞向量分布的 EMD 或者說 Wasserstein 距離最小化。具體等論文發(fā)表再研究了。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

Chinese Zero Pronoun Resolution with Deep Memory Network

解決中文的零指代消解問題。主要思路,用上下文來表示 ZP,使用兩個 LSTM,一個對前文建模(left-to-right),一個對后文建模(right-to-left),然后連接兩邊最后一個隱層的向量作為 AZP 的表達(也可以嘗試平均/求和)

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

接著,給定一個 AZP,會有一個 NP 集合被抽出來作為 candidate antecedents,根據(jù)每個 candidate antecedents 的重要性產(chǎn)生一個額外的 memory,通過對之前 LSTM 產(chǎn)生的 hidden vectors 相減操作來對 candidate antecedents 進行編碼,然后連接上文、下文兩邊的向量,產(chǎn)生最后的 vector 作為最終 candidate antecedents 的表達,并存入外部的 memory 中。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

這樣我們的 memory 里就有了一堆的候選 NP,接著要對 candidate antecedents 的重要性做一個排序,選擇合適的 NP 來 fill in the gap (ZP)。這里用了 attention 機制,并加入了一些人工特征(Chen and Ng (2016)),表示為 v(feature)tvt(feature)

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

模型用到了人工特征,能不能改進?還有是對 OOV 怎么處理。

小結

整場報告會聽下來,收獲還是有的,只是不如想象中那么驚艷,各種換換零部件,加個 attention,融入傳統(tǒng)特征,給人換湯不換藥的感覺,聽多了也就這么回事兒,最大一個收獲可能是再次意識到了 attention 機制的強大,大部分論文用了 attention 結果都有大幅的改善。anyway,能提高準確率/訓練效率的模型就是好模型!大家都是棒棒噠!學習!



AI慕課學院近期推出了《NLP工程師入門實踐班:基于深度學習的自然語言處理》課程!

三大模塊,五大應用,海外博士講師手把手教你入門NLP,更有豐富項目經(jīng)驗相授;算法+實踐,搭配典型行業(yè)應用;隨到隨學,專業(yè)社群,講師在線答疑!

課程地址:http://www.mooc.ai/course/427

加入AI慕課學院人工智能學習交流QQ群:624413030,與AI同行一起交流成長


雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

分享:
相關文章

編輯

關注AI學術,例如論文
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說