2
本文作者: 汪思穎 | 編輯:郭奕欣 | 2017-08-23 22:23 | 專(zhuān)題:EMNLP 2017 |
雷鋒網(wǎng) AI 科技評(píng)論按:本文作者徐阿衡,原文載于其個(gè)人主頁(yè),雷鋒網(wǎng) AI 科技評(píng)論獲其授權(quán)發(fā)布。
8月16日,在北京中科院軟件研究所舉辦的“自然語(yǔ)言處理前沿技術(shù)研討會(huì)暨EMNLP2017論文報(bào)告會(huì)”上,邀請(qǐng)了國(guó)內(nèi)部分被 EMNLP 2017錄用論文的作者來(lái)報(bào)告研究成果。整場(chǎng)報(bào)告會(huì)分為文本摘要及情感分析、機(jī)器翻譯、信息抽取及自動(dòng)問(wèn)答、文本分析及表示學(xué)習(xí)四個(gè)部分。感覺(jué)上次的 CCF-GAIR 參會(huì)筆記寫(xiě)的像流水賬,這次換一種方式做筆記。
本文分為四個(gè)部分,并沒(méi)有包含分享的所有論文。第一部分寫(xiě)我最喜歡的論文,第二部分總結(jié)一些以模型融合為主要方法的論文,第三部分總結(jié)一些對(duì)模型組件進(jìn)行微調(diào)的論文,第四部分是類(lèi)似舊瓶裝新酒的 idea。
Multimodal Summarization for Asynchronous Collection of Text, Image, Audio and Video
異步的文本、圖像、音視頻多模態(tài)摘要,一般的文本摘要關(guān)注的是 salience, non-redundancy,這里關(guān)注的是 readability, visual information,visual information 這里說(shuō)的就是圖片信息,暗示事件的 highlights。考慮一個(gè)視頻新聞,本身有視覺(jué)模態(tài)和音頻模態(tài),通過(guò) ASR,還可以產(chǎn)生文本模態(tài),問(wèn)題是如何將這些模態(tài)連接起來(lái),產(chǎn)生一個(gè)附帶精彩圖片的文本摘要呢? 這篇論文就在討論這個(gè)問(wèn)題,整個(gè)模型輸入是一個(gè)主題的文本以及視頻,輸出是一段附圖片的文本摘要。
1、預(yù)處理:
視頻產(chǎn)生圖片:CV 基本思路,把 Video 切成一個(gè)個(gè)的 shots(鏡頭/段落),每個(gè)鏡頭可以 group(組合) 成一個(gè) story(scene),每一個(gè)鏡頭還可以細(xì)分成 sub-shots,每個(gè) sub-shot 可以用 key-frame 來(lái)表示,選擇關(guān)鍵幀作為視覺(jué)信息,同時(shí)認(rèn)為長(zhǎng)鏡頭的圖片相對(duì)于短鏡頭更重要,基于此對(duì)圖片重要性進(jìn)行打分。
音頻產(chǎn)生文字:ASR。一方面語(yǔ)音識(shí)別結(jié)果并不十分準(zhǔn)確,另一方面音頻模態(tài)會(huì)有一些音頻信號(hào)可以暗示我們哪些內(nèi)容是重要的,基于這兩點(diǎn)會(huì)產(chǎn)生兩個(gè)指導(dǎo)策略,稍后提到。
2、文本重要性打分:
用 LexRank,句子是點(diǎn),連線是重要性,進(jìn)行隨機(jī)游走,針對(duì)音頻產(chǎn)生文字的兩個(gè)特性使用兩個(gè)指導(dǎo)策略:
如果語(yǔ)音識(shí)別結(jié)果和文本句子語(yǔ)義相同,那么讓語(yǔ)音識(shí)別結(jié)果來(lái)推薦文本,反之不然;
如果語(yǔ)音信號(hào)比較明顯,語(yǔ)音推薦文本,反之不然;
這兩條指導(dǎo)策略會(huì)提升文本可讀性。
3、圖文匹配問(wèn)題:
希望摘要能覆蓋視覺(jué)信息,能解釋圖片,所以需要做一個(gè)文本圖片分類(lèi)器。圖像 vcr 解碼接兩層前向網(wǎng)絡(luò),文本做一個(gè)高斯分布再求 fisher rank,也是接兩層前向網(wǎng)絡(luò),最終將兩個(gè)文本映射到同一個(gè)語(yǔ)義空間,計(jì)算匹配度。
一個(gè)問(wèn)題是如何在復(fù)雜的句子里提出子句,作者提出了基于傳統(tǒng)語(yǔ)義角色標(biāo)注的方法,利用中心謂詞提取匹配的 frame 信息(predicate, argument1, argument2),好處是可以抽取語(yǔ)義相對(duì)獨(dú)立的部分,還可以通過(guò) frame 的設(shè)定(只取施、受、謂詞)過(guò)濾如時(shí)間等圖片很難反映的信息。
4、目標(biāo)函數(shù):
提到了三個(gè)目標(biāo)函數(shù):
針對(duì)文本:對(duì)文本重要性獎(jiǎng)勵(lì)、冗余性懲罰
針對(duì)視覺(jué):圖片重要性(鏡頭時(shí)長(zhǎng)),是否被文本摘要覆蓋(是否有匹配)
平衡視覺(jué)信息和文本信息
下面一篇 Affinity-Preserving Random Walk for Multi-Document Summarization 多文檔摘要也用到了圖排序模型,這里略過(guò)。
Reasoning with Heterogeneous Knowledge for Commonsense Machine Comprehension
聚焦兩個(gè)問(wèn)題:如何去獲取并且表示常識(shí)知識(shí)?并且如何應(yīng)用獲取到的常識(shí)知識(shí)進(jìn)行推理? 論文嘗試從多個(gè)不同來(lái)源的異構(gòu)知識(shí)庫(kù)當(dāng)中獲取了相關(guān)的信息,并將這些知識(shí)統(tǒng)一表示成了帶有推理代價(jià)的推理規(guī)則的形式,采用一個(gè)基于注意力機(jī)制的多知識(shí)推理模型,綜合考慮上述所有的知識(shí)完成推理任務(wù)。
任務(wù)類(lèi)型: 在 RocStories 數(shù)據(jù)集上,在給定一個(gè)故事的前 4 句話(huà)的情況下,要求系統(tǒng)從兩個(gè)候選句子當(dāng)中選出一個(gè)作為故事的結(jié)尾。
推理規(guī)則:統(tǒng)一將知識(shí)表示成如下的推理規(guī)則的形式,在關(guān)系 f 下,元素 Y 可以由元素 X 推出,其推理代價(jià)是 s。
知識(shí)獲取
主要從不同來(lái)源獲取三類(lèi)知識(shí),包括:
事件序列知識(shí)(Event Narrative Knowledge)
捕捉事件之間的時(shí)間、因果關(guān)系(去了餐館 -> 要點(diǎn)餐)
采用兩個(gè)模型來(lái)捕捉這個(gè)信息,一種是基于有序的 PMI 模型,另外一個(gè)基于Skip-Gram的向量化表示模型,本質(zhì)都是基于事件對(duì)在文本當(dāng)中的有序共現(xiàn)的頻繁程度來(lái)計(jì)算推理規(guī)則的代價(jià)的。
實(shí)體的語(yǔ)義知識(shí)(Entity semantic knowledge)
捕捉實(shí)體之間的語(yǔ)義關(guān)系。
以星巴克為例,捕捉的第一種關(guān)系是實(shí)體間的共指關(guān)系(coreference),比如說(shuō)用“咖啡屋”來(lái)指代星巴克。從 Wordnet 來(lái)獲取實(shí)體間上下位關(guān)系的知識(shí)。cost 是 1 當(dāng)且僅當(dāng) X 和 Y 是同義詞或者有上下位關(guān)系
第二種關(guān)系是相關(guān)關(guān)系(associative),比如說(shuō)出現(xiàn)星巴克時(shí)可能會(huì)出現(xiàn)“拿鐵咖啡”這一類(lèi)與之相關(guān)的實(shí)體。通過(guò) Wikipedia 中實(shí)體頁(yè)面的鏈接關(guān)系來(lái)得到實(shí)體間的相關(guān)關(guān)系知識(shí),Cost 是兩個(gè)實(shí)體間的距離(Milne and Witten(2008).)
情感的一致性知識(shí)(Sentiment coherent knowledge)
捕捉元素間的情感關(guān)系
故事的結(jié)尾和故事的整體的情感應(yīng)該基本上保持一致,否則結(jié)尾就會(huì)顯得太突兀,那么這樣的結(jié)尾就不是一個(gè)好的結(jié)尾。從 SentiWordnet 上來(lái)獲得這種不同元素之間的情感一致性的知識(shí)。cost 為 1 if both subjective and have opposite sentimental polarity; 為 -1 if both subjective and have same sentimental polarity; 否則為 0
上述推理規(guī)則代價(jià)的計(jì)算方式不同,論文使用了一種類(lèi)似于 Metric Learning的方式,通過(guò)在每個(gè)類(lèi)別的推理規(guī)則上增加了一個(gè)非線性層來(lái)自動(dòng)學(xué)習(xí)對(duì)不同類(lèi)別的推理規(guī)則代價(jià)的校準(zhǔn)。
另外,由于否定的存在會(huì)反轉(zhuǎn)事件關(guān)系以及情感關(guān)系的推理結(jié)果,論文對(duì)否定進(jìn)行了特殊處理。
知識(shí)推理
如何將規(guī)則用到閱讀理解之中?換句話(huà)說(shuō),就是在給定一個(gè)文檔和候選答案的基礎(chǔ)上,如何衡量候選答案是否正確?首先將文檔以及候選答案都劃分為元素,整個(gè)推理的過(guò)程就被轉(zhuǎn)化成了一個(gè)推理規(guī)則選擇以及對(duì)這個(gè)推理的合理性進(jìn)行評(píng)估的過(guò)程。
重要假設(shè):一組有效的推理應(yīng)當(dāng)要能夠覆蓋住結(jié)尾當(dāng)中的所有元素。換言之,結(jié)尾當(dāng)中出現(xiàn)的每一個(gè)元素,都應(yīng)當(dāng)能夠在原文當(dāng)中找到它出現(xiàn)的依據(jù)。
對(duì)于同樣的一個(gè)文檔和候選答案,我們可以有多種多樣不同的推理。
上面一個(gè)推理就是一組有效的推理,這組推理是很符合人的認(rèn)知的。因?yàn)槲覀兺ǔ?huì)通過(guò) Mary 和 She 之間的實(shí)體共指關(guān)系、Restaurant 和 order 之間的序列關(guān)系以及 restaurant 和 food 之間的相關(guān)關(guān)系來(lái)判斷這個(gè)結(jié)果是不是成立的。
這個(gè)就不怎么合理,因?yàn)槲覀儾惶珪?huì)去考慮一個(gè)人和一個(gè)事件之間是不是有時(shí)序關(guān)系,以及考慮 walk to 這樣一個(gè)動(dòng)作和 food 之間的聯(lián)系。
采用每一種推理的可能性是不同的,用 P(R|D,H)P(R|D,H) 來(lái)對(duì)這種推理的選擇建模,基于元素獨(dú)立性假設(shè),得到下面的式子
是否選擇一條推理規(guī)則參與推理一個(gè)假設(shè)元素 hihi,取決于對(duì)于原文當(dāng)中推理得到 hihi 的元素 djdj 的選擇,以及對(duì)于 djdj 到 hihi 之間推理關(guān)系的選擇。然后將這個(gè)概率分布重新定義了一個(gè)重要性函數(shù),與三個(gè)因子相關(guān):
s(h,d)
文檔中的元素與候選答案中元素的語(yǔ)義匹配程度
a(h,f) 以及 a(d,f)
一個(gè)元素與這條推理規(guī)則的關(guān)系的一個(gè)關(guān)聯(lián)程度,使用一個(gè)注意力函數(shù)來(lái)建模這種關(guān)聯(lián)程度
將原文到候選的推理代價(jià)定義成其所有有效的推理的期望代價(jià)
使用一個(gè) softmax 函數(shù)來(lái)歸一化所有候選的代價(jià)值,并且使用最大后驗(yàn)概率估計(jì)來(lái)估計(jì)模型當(dāng)中的參數(shù)。
實(shí)驗(yàn)
三個(gè) Baseline 進(jìn)行了比較:
Narrative Event Chain (Chambers and Jurafsky, 2008)
僅僅考慮是事件與事件之間的關(guān)聯(lián)信息
DSSM (Huang et al., 2013)
將文檔和候選答案各自表示成了一個(gè)語(yǔ)義向量,并且計(jì)算它們之間的語(yǔ)義距離
LSTM 模型 (Pichotta and Mooney, 2015)
通過(guò)對(duì)先前的事件進(jìn)行序列建模來(lái)預(yù)測(cè)后面發(fā)生事件的概率。
不同知識(shí)的影響
每一種知識(shí)都能夠起到作用,移除任何一種知識(shí)都會(huì)導(dǎo)致系統(tǒng)的performance顯著地降低。
推理規(guī)則選擇方式加入 attention 機(jī)制的影響
其他
一是推理規(guī)則怎樣產(chǎn)生更多更復(fù)雜的推理?二是訓(xùn)練數(shù)據(jù),一方面,常識(shí)閱讀理解數(shù)據(jù)還是很缺乏,可能需要半監(jiān)督或遠(yuǎn)程監(jiān)督的方法來(lái)拓展訓(xùn)練數(shù)據(jù);另一方面,可能需要擴(kuò)展更多的數(shù)據(jù)源。
Neural Response Generation via GAN with an Approximate Embedding Layer
生成式聊天系統(tǒng)可以看作是一個(gè)特殊的翻譯過(guò)程,一個(gè) question-answer pair 等價(jià)于 SMT 需要處理的一條平行語(yǔ)料,而 SMT 的訓(xùn)練過(guò)程實(shí)際上也就等價(jià)于構(gòu)建問(wèn)題和答案當(dāng)中詞語(yǔ)的語(yǔ)義關(guān)聯(lián)過(guò)程。NMT 作為 SMT 高級(jí)版可以用來(lái)實(shí)現(xiàn)聊天回復(fù)的自動(dòng)生成。這種新的自動(dòng)聊天模型架構(gòu)命名為 Neural Response Generation(NRG)。
而現(xiàn)在 NRG 存在問(wèn)題是生成的答案嚴(yán)重趨同,不具有實(shí)際價(jià)值,如對(duì)于任何的用戶(hù) query,生成的結(jié)果都有可能是“我也覺(jué)得”或“我也是這么認(rèn)為的”,這種生成結(jié)果被稱(chēng)為 safe response。safe response 產(chǎn)生原因如下:
The data distribution of chat corpus
The fundamental nature of statistical models
聊天數(shù)據(jù)中詞語(yǔ)在句子不同位置的概率分布具有非常明顯的長(zhǎng)尾特性,尤其在句子開(kāi)頭,相當(dāng)大比例的聊天回復(fù)是以“我”“也”作為開(kāi)頭的句子,詞語(yǔ)概率分布上的模式會(huì)優(yōu)先被 decoder 的語(yǔ)言模型學(xué)到,并在生成過(guò)程中嚴(yán)重抑制 query 與 response 之間詞語(yǔ)關(guān)聯(lián)模式的作用,也就是說(shuō),即便有了 query 的語(yǔ)義向量作為條件,decoder 仍然會(huì)挑選概率最大的“我”作為 response 的第一個(gè)詞語(yǔ),又由于語(yǔ)言模型的特性,接下來(lái)的詞語(yǔ)將極有可能是“也”……以此類(lèi)推,一個(gè) safe response 由此產(chǎn)生。
常見(jiàn)的解決方案包括:通過(guò)引入 attention mechanism 強(qiáng)化 query 中重點(diǎn)的語(yǔ)義信息;削弱 decoder 中語(yǔ)言模型的影響;引入 user modeling 或者外部知識(shí)等信息也能夠增強(qiáng)生成回復(fù)的多樣性。這些其實(shí)是對(duì)于模型或者數(shù)據(jù)的局部感知,如果從更加全局的角度考慮 safe response 的問(wèn)題,就會(huì)發(fā)現(xiàn)產(chǎn)生 safe response 的 S2S 模型實(shí)際上是陷入了一個(gè)局部的最優(yōu)解,而我們需要的是給模型施加一個(gè)干擾,使其跳出局部解,進(jìn)入更加優(yōu)化的狀態(tài),那么最簡(jiǎn)單的正向干擾是,告知模型它生成的 safe response 是很差的結(jié)果,盡管生成這樣的結(jié)果的 loss 是較小的。這樣就開(kāi)啟了生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)在生成式聊天問(wèn)題中的曲折探索。
將 GAN 引入聊天回復(fù)生成的思路:使用 encoder-decoder 架構(gòu)搭建一個(gè)回復(fù)生成器G,負(fù)責(zé)生成指定 query 的一個(gè) response,同時(shí)搭建一個(gè)判別器 D 負(fù)責(zé)判斷生成的結(jié)果與真正的 response 尚存多大的差距,并根據(jù)判別器的輸出調(diào)整生成器 G,使其跳出產(chǎn)生 safe response 的局部最優(yōu)局面。
一個(gè)重要的問(wèn)題是如何實(shí)現(xiàn)判別器 D 訓(xùn)練誤差向生成器 G 的反向傳播(Backpropagation)。對(duì)于文本的生成來(lái)說(shuō),一個(gè)文本樣本的生成必然伴隨 G 在輸出層對(duì)詞語(yǔ)的采樣過(guò)程,無(wú)論這種采樣所遵循的原則是選取最大概率的 greedy思想還是 beam searching,它實(shí)際上都引入了離散的操作,這種不可導(dǎo)的過(guò)程就像道路上突然出現(xiàn)的斷崖,阻擋了反向傳播的腳步,使對(duì)于 G 的對(duì)抗訓(xùn)練無(wú)法進(jìn)行下去。這篇論文就針對(duì)文本生成過(guò)程中的采樣操作帶來(lái)的誤差無(wú)法傳導(dǎo)的實(shí)際問(wèn)題提出了解決方案。
論文為生成器 G 構(gòu)建了一個(gè) Approximate Embedding Layer(AEL 如圖中紅色矩形框中所示,其細(xì)節(jié)在圖右側(cè)部分給出),這一層的作用是近似的表達(dá)每次采樣過(guò)程,在每一個(gè) generation step 中不再試圖得到具體的詞,而是基于詞語(yǔ)的概率分布算出一個(gè)采樣向量。這個(gè)操作的具體過(guò)程是,在每一個(gè) generation step 里,GRU 輸出的隱狀態(tài) hihi 在加入一個(gè)隨機(jī)擾動(dòng) zizi 之后,經(jīng)過(guò)全連接層和 softmax 之后得到整個(gè)詞表中每個(gè)詞語(yǔ)的概率分布,我們將這個(gè)概率分布作為權(quán)重對(duì)詞表中所有詞語(yǔ)的 embedding 進(jìn)行加權(quán)求和,從而得到一個(gè)當(dāng)前采樣的詞語(yǔ)的近似向量表示(如圖中右側(cè)綠框所示),并令其作為下一個(gè) generation step 的輸入。同時(shí),此近似向量同樣可以用來(lái)拼接組成 fake response 的表示用于 D 的訓(xùn)練。不難看出,這種對(duì)于采樣結(jié)果的近似表示操作是連續(xù)可導(dǎo)的,并且引入這種近似表示并不改變模型 G 的訓(xùn)練目標(biāo)。
取得了不錯(cuò)的效果。
詳細(xì)戳首發(fā)!三角獸被 EMNLP 錄取論文精華導(dǎo)讀:基于對(duì)抗學(xué)習(xí)的生成式對(duì)話(huà)模型淺說(shuō)
模型融合
把傳統(tǒng)模型和神經(jīng)網(wǎng)絡(luò)相結(jié)合。
Translating Phrases in Neural Machine Translation
目前的 NMT 里 decoder 一次生成一個(gè)單詞,不能進(jìn)行 one-many 以及 many-many 的翻譯,也就是沒(méi)法做目標(biāo)語(yǔ)言 phrase 的翻譯,而 SMT 能做,所以想法是把兩者結(jié)合。結(jié)合方法一般來(lái)說(shuō)有兩種,一是 shallow,NMT 作為 feature 放到傳統(tǒng)框架進(jìn)行預(yù)調(diào);二是 deep,SMT 給 NMT 做推薦,NMT 用神經(jīng)網(wǎng)絡(luò)的方式接收 SMT 的東西。這篇論文用的是第二種方式。
SMT 先翻譯一遍,把 relevant target phrases 扔到 NMT 的 Phrase Memory 里,NMT 從 Phrase Memory 里讀取 target phrases 并進(jìn)行打分,然后系統(tǒng)同時(shí)看 target phrase 和 word predictor 的結(jié)果,用一個(gè) balancer 將 SMT 和 NMT 的優(yōu)勢(shì)結(jié)合起來(lái),來(lái)判斷下一個(gè)是單詞還是短語(yǔ)的概率,來(lái)決定選哪個(gè)。所以其實(shí)產(chǎn)生的翻譯 y=y1,y2,…,yTuy=y1,y2,…,yTu其實(shí)有兩個(gè)碎片(fragments)組成,NMT 的 word predictor w=w1,w2,…,wKw=w1,w2,…,wK 以及 phrase memory 里存的相關(guān)短語(yǔ) p=p1,p2,…pLp=p1,p2,…pL (這里的relevant target phrases 要滿(mǎn)足兩個(gè)條件:與原文相關(guān)(adequacy);不重復(fù)翻譯(coverage))
另外一點(diǎn)是作者還提出了基于 chunk 的翻譯,SMT 對(duì) source 提取 Chunk 信息,把布什總統(tǒng)、美國(guó)政府這些作為 chunk 讓 SMT 預(yù)翻,然后把它們寫(xiě)到 phrase memory 里,后續(xù)步驟不變。chunk 的實(shí)現(xiàn)主要是由 sequence tagging 完成,相同 tag 表示同一個(gè) chunk,開(kāi)始符號(hào)另外標(biāo)記,比如 “information security” 被標(biāo)注成 “NP _B NP”,然后新的輸入就變成原來(lái)的 word embedding 以及 chunking tag embedding。chunk 的好處在于限定了 source-side phrase 的信息,一方面減少了短語(yǔ)間的 overlap,另一方面提高了 decoding 的準(zhǔn)確性。
機(jī)器翻譯相關(guān)戳
NLP 筆記 - Machine Translation
NLP 筆記 - Neural Machine Translation
問(wèn)題是 SMT 沒(méi)那么強(qiáng)(很難保證準(zhǔn)確率),NMT 也沒(méi)那么弱(一個(gè)單詞一個(gè)單詞的翻譯也能把正確的短語(yǔ)翻譯出來(lái))
Incorporating Relation Paths in Neural Relation Extraction
提出了對(duì)文本中的關(guān)系路徑進(jìn)行建模,結(jié)合 CNN 模型 (Zeng, et al. (2014). Relation classification via convolutional deep neural network. CGLING) 完成關(guān)系抽取任務(wù)。
傳統(tǒng)基于 CNN 的方法,通過(guò) CNN 自動(dòng)將原始文本映射到特征空間中,以此為依據(jù)判斷句子所表達(dá)的關(guān)系
這種 CNN 模型存在的問(wèn)題是難以理解多句話(huà)文本上的語(yǔ)義信息。比如說(shuō) A is the father of B. B is the father of C. 就沒(méi)法得出 A 和 C 的關(guān)系,基于此,論文提出了在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上引入關(guān)系路徑編碼器的方法,其實(shí)就是原來(lái)的 word embedding 輸入加上一層 position embedding,position embedding 將當(dāng)前詞與 head entity/tail entity 的相對(duì)路徑分別用兩個(gè) vector 表示。然后用 αα 來(lái)平衡 text encoder(E) 和 path encoder(G)。
L(h,r,t)=E(h,r,t|S)+αG(h,r,t|P)
Encoder 還采用了多樣例學(xué)習(xí)機(jī)制(Multi-instances Learning),用一個(gè)句子集合聯(lián)合預(yù)測(cè)關(guān)系,句子集合的選擇方法有隨機(jī)方法(rand),最大化方法(max, 選最具代表性的),選擇-注意力機(jī)制(att),注意力機(jī)制的效果最好。
實(shí)驗(yàn)結(jié)果:
之后可以繼續(xù)的兩個(gè)改進(jìn)方向,一是對(duì)多步關(guān)系路徑進(jìn)行建模,使得模型可以處理更復(fù)雜的語(yǔ)義情況,而是將文本中的關(guān)系路徑和知識(shí)圖譜中的關(guān)系路徑有機(jī)地結(jié)合,更好地完成關(guān)系抽取和知識(shí)圖譜補(bǔ)全的任務(wù)。
零件調(diào)整
對(duì)已有模型零部件的一些調(diào)整改造。
Towards a Universal Sentiment Classifier in Multiple languages
這里我覺(jué)得有意思的一點(diǎn)是作者模仿了 skip-gram 模型提出了一種同時(shí)訓(xùn)練多語(yǔ)言的 embedding 的方法。一句話(huà)解釋就是通過(guò)中心詞來(lái)預(yù)測(cè)自身/其他語(yǔ)言周?chē)那昂笤~。比如說(shuō)雙語(yǔ)預(yù)料中,需要使中文能預(yù)測(cè)中文自身的周?chē)~,英文能學(xué)習(xí)英文自身的周?chē)~,還要通過(guò)對(duì)齊來(lái)學(xué)習(xí)中文來(lái)預(yù)測(cè)英文、英文來(lái)預(yù)測(cè)中文。skip-gram 相關(guān)戳 詞向量總結(jié)筆記(簡(jiǎn)潔版)。
C 作為 source language S 和 target language T 之間的平行語(yǔ)料,語(yǔ)料庫(kù)可以分為 CSCS 和 CTCT 兩部分,目標(biāo)函數(shù)如下
然后就用一個(gè) LR 模型進(jìn)行情感分類(lèi)。
Neural Machine Translation with Word Predictions
我們知道在 NMT 中,訓(xùn)練成本主要來(lái)自于輸出層在整個(gè) target vocabulary 上的 softmax 計(jì)算,為了減小這種 cost,各位學(xué)者做出了各種努力,比如說(shuō) Devlin et al. (2014) 從計(jì)算角度提出了 self-normalization 技術(shù),通過(guò)改造目標(biāo)函數(shù)把計(jì)算整個(gè) matrix 的步驟優(yōu)化為只計(jì)算輸出層每一行的值(NLP 筆記 - Neural Machine Translation),而在 Neural Machine Translation with Word Predictions 這篇論文中,作者提出了一種減小 target vocabulary 的方法,主要用到了詞預(yù)測(cè)機(jī)制(word predictor)。
之前 MT 的目標(biāo)是生成一個(gè)詞序列(ordered sequence),而現(xiàn)在 word predictor 的目標(biāo)是生成 y1..yn 的詞,但是不考慮詞序(no order)。
和上圖一樣的 idea,word prediction 中,initial state(WPEWPE)要包含 target sentence 里的所有信息,hidden state(WP_D)要包含沒(méi)有被翻譯的詞的所有信息。
PWPE(y|x)=∏j=1|y|PWPE(yj|x)PWPE(y|x)=∏j=1|y|PWPE(yj|x)
PWPD(yj,yj+1,…,y|y||y<j,x)=∏k=j|y|PWPD(yk|y<j,x)PWPD(yj,yj+1,…,y|y||y<j,x)=∏k=j|y|PWPD(yk|y<j,x)
這樣無(wú)論是效果和效率上都有了顯著提升
這個(gè)方法很好的一點(diǎn)是目標(biāo)中的詞對(duì)詞預(yù)測(cè)來(lái)說(shuō)是天然的標(biāo)注,構(gòu)造簡(jiǎn)單。然而要注意的兩個(gè)點(diǎn)是 預(yù)測(cè)要準(zhǔn)&預(yù)測(cè)要快,否則就失去了意義。還有個(gè)問(wèn)題是,按理來(lái)說(shuō)較大詞表質(zhì)量更好然而翻譯效率低,較小的詞表,像這篇論文提出的,翻譯某句話(huà)提前先預(yù)測(cè)生成一個(gè)新的小的詞表交給 decoder,效率毫無(wú)疑問(wèn)會(huì)提升,但是質(zhì)量,為啥會(huì)更好?不是很理解,坐等論文。
Towards Bidirectional Hierarchical Representations for Attention-based Neural Machine Translation
對(duì)傳統(tǒng) tree-based encoder 的一個(gè)改進(jìn)。傳統(tǒng)的 tree-based encoder 是 bottom-up 的結(jié)構(gòu),能抓局部信息卻捕捉不了全局信息
這篇論文對(duì) tree-based encoder 做了改造,讓它既能捕捉局部的語(yǔ)義信息,又能捕捉全局的語(yǔ)義信息。
bottom-up encoding 取得局部信息,top-down encoding 取得全局信息。對(duì)于 OOV(out-of-vocabulary) 問(wèn)題,基于 sub-word 思想,這里單獨(dú)建立一個(gè)二叉詞法樹(shù)并將其融入原來(lái)的句法樹(shù)里。這樣如下圖所示,模型囊括了句子、短語(yǔ)、詞、sub-word 各種全局/局部信息,表達(dá)力 max。然而同樣帶來(lái)的問(wèn)題是會(huì)產(chǎn)生重復(fù)信息,進(jìn)而可能會(huì)造成重復(fù)翻譯。
為解決重復(fù)翻譯的問(wèn)題,或者說(shuō)詞/短語(yǔ)向量的 balance,這里還引入了 attention 機(jī)制
效果有了一定提升。舉個(gè)例子說(shuō)明 tree-based encoder 的優(yōu)勢(shì)。用普通的 sequence encoder 翻譯 PP 時(shí)會(huì)產(chǎn)生錯(cuò)誤,普通的 tree-based 能翻譯好 PP,不過(guò) 境外 和 以外的地區(qū) 還是有一點(diǎn)差距的,新版 tree-decoder 翻譯就無(wú)壓力。
遷移 idea
其實(shí)就是用已有的但可能用在別的方面的模型/思路解決現(xiàn)在的問(wèn)題。
A Question Answering Approach for Emotion Cause Extraction
這一部分之前木有研究過(guò),先來(lái)看一下什么是 emotion cause extraction
1 Document: 我的手機(jī)昨天丟了,我現(xiàn)在很難過(guò)。 (I lost my phone yesterday, and I feel sad now. )
2 Emotion:Sad
3 Emotional Expression: 很難過(guò)
4 Emotion Cause: 我的手機(jī)昨天丟了
任務(wù)目標(biāo)是根據(jù)文本信息及其中包含的情感表達(dá)抽取出情感原因。論文作者之前發(fā)過(guò)論文,用的是基于 dependency parsing 的方法,把情感原因轉(zhuǎn)化為樹(shù)的分類(lèi)任務(wù),但結(jié)果依賴(lài) dependency parsing 的準(zhǔn)確性,而且只能處理對(duì)子句/句子級(jí)別的原因,不能處理細(xì)粒度的短語(yǔ)級(jí)別的原因。所以這一篇轉(zhuǎn)換了思路,把 emotion cause extraction 問(wèn)題轉(zhuǎn)化為 question-answering 問(wèn)題,提出了一種基于卷積的多層 memory network 方法,結(jié)果比之前基于樹(shù)的方法提升了 2 個(gè)點(diǎn)。
1 Emotional Text => Reading Text
2 Emotional Words => Question/Query
3 Emotion Cause Binary Classification Results => Answer
用傳統(tǒng)的 memory network 作為基礎(chǔ)模型,reading text 用詞向量 embedding 表達(dá),存到記憶單元,待判斷的情感詞的詞向量作為注意力單元,將 query 和 text 每個(gè)詞進(jìn)行內(nèi)積操作,softmax 歸一化作為詞權(quán)重,用注意力的加權(quán)和作為整個(gè)句子的表達(dá)。為了引入詞語(yǔ)的上下文,用了類(lèi)似卷積的注意力加權(quán)方法,每個(gè)詞的注意力由當(dāng)前詞、前文詞、后文詞共同決定,加權(quán)過(guò)程中根據(jù)上下文注意力對(duì)不同位置的詞語(yǔ)進(jìn)行加權(quán),獲得以短語(yǔ)窗口為單位的加權(quán)結(jié)果,然后進(jìn)行輸出。同時(shí)對(duì)記憶網(wǎng)絡(luò)做了多層的堆疊,以學(xué)習(xí)更深的特征。最后效果得到了提升,并且在短語(yǔ)級(jí)別的情感原因抽取上也取得了不錯(cuò)的效果。
問(wèn)題來(lái)了,query 是怎么產(chǎn)生的呢?=> 數(shù)據(jù)集標(biāo)注好了情感表達(dá)詞!
Earth Mover’s Distance Minimization for Unsupervised Bilingual Lexicon Induction
主要研究無(wú)監(jiān)督的雙語(yǔ)對(duì)齊方法,也就是能無(wú)監(jiān)督地聯(lián)系兩個(gè)詞向量空間,本質(zhì)上是需要詞向量空間之間,或者說(shuō)詞向量分布之間距離的度量。用的 EMD 思想,目標(biāo)就是尋找一個(gè)映射G,使得映射后的源語(yǔ)言詞向量分布和目標(biāo)語(yǔ)言詞向量分布的 EMD 或者說(shuō) Wasserstein 距離最小化。具體等論文發(fā)表再研究了。
Chinese Zero Pronoun Resolution with Deep Memory Network
解決中文的零指代消解問(wèn)題。主要思路,用上下文來(lái)表示 ZP,使用兩個(gè) LSTM,一個(gè)對(duì)前文建模(left-to-right),一個(gè)對(duì)后文建模(right-to-left),然后連接兩邊最后一個(gè)隱層的向量作為 AZP 的表達(dá)(也可以嘗試平均/求和)
接著,給定一個(gè) AZP,會(huì)有一個(gè) NP 集合被抽出來(lái)作為 candidate antecedents,根據(jù)每個(gè) candidate antecedents 的重要性產(chǎn)生一個(gè)額外的 memory,通過(guò)對(duì)之前 LSTM 產(chǎn)生的 hidden vectors 相減操作來(lái)對(duì) candidate antecedents 進(jìn)行編碼,然后連接上文、下文兩邊的向量,產(chǎn)生最后的 vector 作為最終 candidate antecedents 的表達(dá),并存入外部的 memory 中。
這樣我們的 memory 里就有了一堆的候選 NP,接著要對(duì) candidate antecedents 的重要性做一個(gè)排序,選擇合適的 NP 來(lái) fill in the gap (ZP)。這里用了 attention 機(jī)制,并加入了一些人工特征(Chen and Ng (2016)),表示為 v(feature)tvt(feature)
模型用到了人工特征,能不能改進(jìn)?還有是對(duì) OOV 怎么處理。
小結(jié)
整場(chǎng)報(bào)告會(huì)聽(tīng)下來(lái),收獲還是有的,只是不如想象中那么驚艷,各種換換零部件,加個(gè) attention,融入傳統(tǒng)特征,給人換湯不換藥的感覺(jué),聽(tīng)多了也就這么回事兒,最大一個(gè)收獲可能是再次意識(shí)到了 attention 機(jī)制的強(qiáng)大,大部分論文用了 attention 結(jié)果都有大幅的改善。anyway,能提高準(zhǔn)確率/訓(xùn)練效率的模型就是好模型!大家都是棒棒噠!學(xué)習(xí)!
AI慕課學(xué)院近期推出了《NLP工程師入門(mén)實(shí)踐班:基于深度學(xué)習(xí)的自然語(yǔ)言處理》課程!
三大模塊,五大應(yīng)用,海外博士講師手把手教你入門(mén)NLP,更有豐富項(xiàng)目經(jīng)驗(yàn)相授;算法+實(shí)踐,搭配典型行業(yè)應(yīng)用;隨到隨學(xué),專(zhuān)業(yè)社群,講師在線答疑!
課程地址:http://www.mooc.ai/course/427
加入AI慕課學(xué)院人工智能學(xué)習(xí)交流QQ群:624413030,與AI同行一起交流成長(zhǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專(zhuān)題其他文章