0
雷鋒網(wǎng) AI 科技評(píng)論按:Sebastian Ruder 是一位 NLP 方向的博士生、研究科學(xué)家,目前供職于一家做 NLP 相關(guān)服務(wù)的愛爾蘭公司 AYLIEN,同時(shí),他也是一位活躍的博客作者,發(fā)表了多篇機(jī)器學(xué)習(xí)、NLP 和深度學(xué)習(xí)相關(guān)的文章。最近,他基于十幾篇經(jīng)典論文盤點(diǎn)了 2018 年 NLP 領(lǐng)域十個(gè)令人激動(dòng)并具有影響力的想法,并將文章發(fā)布在 Facebook 上。雷鋒網(wǎng) AI 科技評(píng)論編譯如下:
今年,我發(fā)現(xiàn)了 十個(gè)令人激動(dòng)并具有影響力的想法,并將其匯總成了這篇文章。在未來,我們可能還會(huì)對(duì)它們有更多了解。
對(duì)于每個(gè)想法,我都挑選 1-2 篇對(duì)該想法執(zhí)行良好的論文。我試圖保持這份清單的簡(jiǎn)潔性,因此如果沒有覆蓋到所有相關(guān)工作,還請(qǐng)大家見諒。這份清單包含主要與遷移學(xué)習(xí)相關(guān)的想法及其概述,不過也必然會(huì)帶有一定的主觀性。其中的大部分(一些例外)并不是一種趨勢(shì)(但我預(yù)測(cè)其中的一些想法在 2019 年會(huì)變得更具趨勢(shì)性)。最后,我希望在評(píng)論區(qū)中看到你的精彩評(píng)論或者其他領(lǐng)域的精彩文章。
ICLR 2018 收錄的兩篇關(guān)于無監(jiān)督機(jī)器翻譯翻譯的論文(https://arxiv.org/abs/1710.11041)中,無監(jiān)督機(jī)器翻譯的整個(gè)過程的表現(xiàn)好得讓人感到驚訝,但結(jié)果卻不如監(jiān)督系統(tǒng)。在 EMNLP 2018,兩篇同樣來自這兩個(gè)團(tuán)隊(duì)的論文(https://arxiv.org/abs/1809.01272)顯著改進(jìn)了之前的方法,讓無監(jiān)督的機(jī)器翻譯取得了進(jìn)展。代表性論文:
《基于短語和神經(jīng)的無監(jiān)督機(jī)器翻譯》(EMNLP 2018)
Phrase-Based & Neural Unsupervised Machine Translation
這篇論文很好地為無監(jiān)督機(jī)器翻譯提取了三個(gè)關(guān)鍵要求:良好的初始化、語言建模以及你想任務(wù)建模(通過反向翻譯)。我們?cè)谙挛闹袝?huì)看到,這三項(xiàng)要求同樣對(duì)其他的無監(jiān)督場(chǎng)景有益。反向任務(wù)建模要求循環(huán)的一致性,其已在不同方法(尤其是 CycleGAN,https://arxiv.org/abs/1703.10593)中得到應(yīng)用。這篇論文甚至在兩個(gè)低資源語言對(duì)——英語-烏爾都語以及英語-羅馬尼亞語上進(jìn)行了廣泛的實(shí)驗(yàn)和評(píng)估。未來我們有希望看到更多針對(duì)資源匱乏類語言的工作。
無監(jiān)督機(jī)器翻譯三項(xiàng)原則的插圖說明:A)兩個(gè)單語數(shù)據(jù)集;B)初始化;C)語言建模;D)反向翻譯 (Lample et al., 2018)。
使用預(yù)訓(xùn)練的語言模型可能是今年最重要的 NLP 趨勢(shì),因此我在這里就不過多描述。針對(duì)預(yù)訓(xùn)練的語言模型,這里有很多讓人印象深刻的方法:ELMo(https://arxiv.org/abs/1802.05365), ULMFiT(https://arxiv.org/abs/1801.06146)、 OpenAI Transformer(https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf)以及 BERT(https://arxiv.org/abs/1810.04805)。代表性論文:
《深度的語境化詞語表示》(NAACL-HLT 2018)
《Deep contextualized word representations》
這篇論文介紹了 ELMo,頗受好評(píng)。除了實(shí)證結(jié)果讓人印象深刻,這篇論文的詳細(xì)的分析部分也非常顯眼,該部分梳理了各類因素的影響,并且分析了在表示中所捕獲的信息。詞義消歧(WSD)分析自身(下圖左)也執(zhí)行得很好。這兩者都表明,機(jī)器學(xué)習(xí)本身就提供了接近最新技術(shù)的詞義消歧和詞性標(biāo)注性能。
與基線相比的第一層和第二層雙向語言模型的詞義消歧(左)和詞性標(biāo)注(右)結(jié)果(Peters et al., 2018)。
將常識(shí)融入模型是向前發(fā)展的最重要方向之一。然而,創(chuàng)建好的數(shù)據(jù)集并不容易,甚至最常用的那些好的數(shù)據(jù)集還存在很大的偏差。今年出現(xiàn)了一些執(zhí)行良好的數(shù)據(jù)集,它們?cè)噲D教模型一些常識(shí),比如同樣都源自華盛頓大學(xué)的 Event2Mind(https://arxiv.org/abs/1805.06939)和 SWAG(https://arxiv.org/abs/1808.05326)。其中,SWAG 學(xué)到常識(shí)的速度出乎意料地快(https://twitter.com/seb_ruder/status/1050727451138150400)。代表性論文:
《視覺常識(shí)推理》(arXiv 2018)
Visual Commonsense Reasoning
這是第一個(gè)包含了每個(gè)答案所對(duì)應(yīng)的基本原理(解釋)的視覺 QA 數(shù)據(jù)集。此外,問題要求復(fù)雜的推理。創(chuàng)建者通過確保每個(gè)答案正確的先驗(yàn)概率為 25%(每個(gè)答案在整個(gè)數(shù)據(jù)集中出現(xiàn) 4 次,其中,錯(cuò)誤答案出現(xiàn) 3 次,正確答案出現(xiàn) 1 次)來不遺余力地解決可能存在的偏差;這就要求使用計(jì)算相關(guān)性和相似性的模型來解決約束優(yōu)化問題。我希望,在創(chuàng)建數(shù)據(jù)集時(shí)預(yù)防可能的偏倚可以成為未來研究人員們的常識(shí)。最終,看看數(shù)據(jù)精彩地呈現(xiàn)出來就可以了。
VCR:給定一張圖片、一個(gè)區(qū)域列表和一個(gè)問題,模型必須回答這個(gè)問題,并給出一個(gè)可解釋其答案為何正確的理由。 (Zellers et al., 2018).
元學(xué)習(xí)已在小樣本學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和機(jī)器人技術(shù)中得到廣泛應(yīng)用——最突出的例子是與模型無關(guān)的元學(xué)習(xí)(MAML,https://arxiv.org/abs/1703.03400),但其很少在 NLP 中得到成功應(yīng)用。元學(xué)習(xí)對(duì)于訓(xùn)練示例數(shù)量有限的問題非常有用。代表性論文:
《低資源神經(jīng)機(jī)器翻譯的元學(xué)習(xí)》(EMNLP 2018)
Meta-Learning for Low-Resource Neural Machine Translation
作者使用 MAML 方法學(xué)習(xí)翻譯的良好初始化,將每一個(gè)語言對(duì)都視為單獨(dú)的元任務(wù)。適應(yīng)低資源語言對(duì),可能是對(duì) NLP 中的元學(xué)習(xí)最有用的設(shè)置。特別地,將多語種遷移學(xué)習(xí)(例如多語種 BERT,https://github.com/google-research/bert/blob/master/multilingual.md)、無監(jiān)督學(xué)習(xí)和元學(xué)習(xí)結(jié)合起來是一個(gè)有前景的研究方向。
遷移學(xué)習(xí)、多語言遷移學(xué)習(xí)與元學(xué)習(xí)之間的區(qū)別。 實(shí)線:初始化學(xué)習(xí)。 虛線:調(diào)整路徑 (Gu et al., 2018).
今年,我們(http://aclweb.org/anthology/P18-1072)和其他研究者(http://aclweb.org/anthology/D18-1056)都已經(jīng)觀察到,當(dāng)語言不同時(shí),無監(jiān)督的跨語言詞向量方法就會(huì)失效。這是遷移學(xué)習(xí)中的常見現(xiàn)象,其中源和目標(biāo)設(shè)置(例如,域適應(yīng)中的域 https://www.cs.jhu.edu/~mdredze/publications/sentiment_acl07.pdf、連續(xù)學(xué)習(xí) https://arxiv.org/abs/1706.08840 和多任務(wù)學(xué)習(xí) http://www.aclweb.org/anthology/E17-1005 中的任務(wù))之間的差異會(huì)導(dǎo)致模型的退化或失敗。因此,讓模型對(duì)于這些變化更加穩(wěn)健非常重要。代表性論文:
《用于完全無監(jiān)督的跨語言詞向量的穩(wěn)健自學(xué)習(xí)方法》(ACL 2018)
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
該論文利用他們對(duì)問題的理解來設(shè)計(jì)更好的初始化,而不是在初始化上應(yīng)用元學(xué)習(xí)。特別地,他們將兩種語言中與相似詞具有相似的詞分布的詞進(jìn)行配對(duì)。這是利用領(lǐng)域?qū)I(yè)知識(shí)和分析見解來使模型變得更穩(wěn)健的非常好的案例。
三個(gè)詞的相似度分布。 等效翻譯(「two」和「due」)的分布比非相關(guān)詞(「two」和「cane」——意思是「dog」)的分布更為相似。(Artexte et al., 2018)
研究者們未來更好地理解表示,已經(jīng)做了很多努力。特別是「診斷分類器」(diagnostic classifiers,https://arxiv.org/abs/1608.04207)(旨在評(píng)估學(xué)習(xí)到的表示能否預(yù)測(cè)某些屬性的任務(wù)) 已經(jīng)變得非常常用(http://arxiv.org/abs/1805.01070)了。代表性論文:
《語境化詞向量解析:架構(gòu)和表示》(EMNLP 2018)
Dissecting Contextual Word Embeddings: Architecture and Representation
該論文對(duì)預(yù)訓(xùn)練語言模型表示實(shí)現(xiàn)了更好的理解。作者在精心設(shè)計(jì)的無監(jiān)督和有監(jiān)督的任務(wù)上對(duì)詞和跨度表示進(jìn)行了廣泛的學(xué)習(xí)研究。結(jié)果表明:預(yù)訓(xùn)練的表示可以在較低的層中學(xué)習(xí)到低級(jí)形態(tài)和句法任務(wù)相關(guān)的任務(wù),并且可以在較高的層中學(xué)習(xí)到更長(zhǎng)范圍的語義相關(guān)的任務(wù)。
對(duì)我來說,這個(gè)結(jié)果真正表明了,預(yù)訓(xùn)練語言模型確實(shí)捕獲到了與在 ImageNet 上預(yù)訓(xùn)練的計(jì)算機(jī)視覺模型(https://thegradient.pub/nlp-imagenet/)相類似的屬性。
BiLSTM 和 Transformer預(yù)訓(xùn)練表示在詞性標(biāo)注、選區(qū)分析和無監(jiān)督共指解析((從左到右)上每層的性能。 (Peters et al., 2018)
在許多場(chǎng)景下,我們看到研究者越來越多地將精心挑選的輔助任務(wù)與多任務(wù)學(xué)習(xí)一起使用。一個(gè)好的輔助任務(wù)來說,它必須是易于獲取數(shù)據(jù)的。最重要的例子之一是 BERT(https://arxiv.org/abs/1810.04805),它使用下一個(gè)句子的預(yù)測(cè)(該預(yù)測(cè)方法在 Skip-thoughts,https://papers.nips.cc/paper/5950-skip-thought-vectors.pdf 以及最近的 Quick-thoughts,https://arxiv.org/pdf/1803.02893.pdf 中應(yīng)用過)來產(chǎn)生很大的效果。代表性論文:
《語義結(jié)構(gòu)的句法框架》(EMNLP 2018)
Syntactic Scaffolds for Semantic Structures
該論文提出了輔助任務(wù),它通過預(yù)測(cè)每個(gè)跨度對(duì)應(yīng)的句法成分類型,來對(duì)跨度表示進(jìn)行預(yù)訓(xùn)練。輔助任務(wù)雖然在概念上非常簡(jiǎn)單,但它為語義角色標(biāo)注和共指解析等跨級(jí)別預(yù)測(cè)任務(wù)帶來了大幅的改進(jìn)。這篇論文表明,在目標(biāo)任務(wù)(這里是指跨度任務(wù))所要求的級(jí)別上所學(xué)到的特定的表示是效益巨大的。
pair2vec:用于跨句推理的組合詞對(duì)嵌入(arXiv 2018)
pair2vec: Compositional Word-Pair Embeddings for Cross-Sentence Inference
類似地,本論文通過最大化詞對(duì)與其語境間的點(diǎn)互信息(pointwise mutual information),來對(duì)詞對(duì)表示進(jìn)行預(yù)訓(xùn)練。這就激勵(lì)了模型學(xué)習(xí)更有意義的詞對(duì)表示,而不使用語言建模等更通用的目標(biāo)。在 SQuAD 和 MultiNLI 等要求跨句推理的任務(wù)中,預(yù)訓(xùn)練表示是有效的。
我們可以期望未來,看到更多的預(yù)訓(xùn)練任務(wù),能夠捕獲特別適用于某些下游任務(wù)的屬性,并且能夠與語言建模等更多通用任務(wù)相輔相成。
OntoNotes的句法、PropBank和共指注釋。PropBank SRL參數(shù)和共指提及被標(biāo)注在了句法成分的頂部。幾乎每一個(gè)參數(shù)都與一個(gè)句法成分有關(guān)。 (Swayamdipta et al., 2018)
伴隨著遷移學(xué)習(xí)的最新進(jìn)展,我們不應(yīng)該忘記使用特定的目標(biāo)任務(wù)數(shù)據(jù)的更明確的方法。事實(shí)上,預(yù)訓(xùn)練表示與許多半監(jiān)督學(xué)習(xí)方法是相輔相成的。我們已經(jīng)探索了一種半監(jiān)督學(xué)習(xí)的特殊方法——自我標(biāo)注的方法(http://aclweb.org/anthology/P18-1096)。代表性論文:
《基于交叉視點(diǎn)訓(xùn)練的半監(jiān)督序列建?!?EMNLP 2018)
Semi-Supervised Sequence Modeling with Cross-View Training
這篇論文表明,一個(gè)能確保對(duì)輸入的不同視點(diǎn)的預(yù)測(cè)與主模型的預(yù)測(cè)一致的概念上非常簡(jiǎn)單的想法,可以在大量的任務(wù)上得到性能的提高。這個(gè)想法與詞 dropout 類似,但允許利用未標(biāo)記的數(shù)據(jù)讓模型變得更穩(wěn)健。與 mean teacher(https://papers.nips.cc/paper/6719-mean-teachers-are-better-role-models-weight-averaged-consistency-targets-improve-semi-supervised-deep-learning-results.pdf)等其他自集成模型相比,它是專門針對(duì)特定的 NLP 任務(wù)設(shè)計(jì)的。
隨著對(duì)半監(jiān)督學(xué)習(xí)的研究越越來越多,我們將有望看到有更多明確地嘗試對(duì)未來目標(biāo)預(yù)測(cè)進(jìn)行建模的研究工作。
輔助預(yù)測(cè)模塊看到的輸入:輔助1 :They traveled to __________________. 輔助2:They traveled toWashington _______. 輔助3: _____________ Washingtonby plane.輔助4:_____________ by plane。 (Clark et al., 2018)
隨著一系列新的問答(QA)數(shù)據(jù)集(http://quac.ai/)的出現(xiàn),問答系統(tǒng)有了很大的發(fā)展。除了對(duì)話式問答和多步推理,問答最具挑戰(zhàn)性的方面是對(duì)敘述和大體量信息進(jìn)行合成。代表性論文:
《敘述答閱讀理解挑戰(zhàn)》(TACL 2018)
The NarrativeQA Reading Comprehension Challenge
這篇論文基于對(duì)完整的電影劇本和書籍的提問和回答,提出了一個(gè)具有挑戰(zhàn)性的新的問答數(shù)據(jù)集。雖然依靠當(dāng)前的方法還無法完成這項(xiàng)任務(wù),但是模型可以選擇使用摘要(而不是整本書籍)作為選擇答案(而不是生成答案)的語境。這些變體讓任務(wù)的實(shí)現(xiàn)更加容易,也使得模型可以逐步擴(kuò)展到整個(gè)語境設(shè)置。
我們需要更多這樣的數(shù)據(jù)集,它們能體現(xiàn)具有挑戰(zhàn)性的問題,并且有助于解決這些問題。
QA 數(shù)據(jù)集比較
CNN 中的卷積、正則化、dropout 以及其他機(jī)制等歸納偏差,是神經(jīng)網(wǎng)絡(luò)模型的核心部分,它們充當(dāng)調(diào)節(jié)器的角色,使模型更具樣本效率。然而,提出一個(gè)應(yīng)用更加廣泛的歸納偏差方法,并將其融入模型,是具有挑戰(zhàn)性的。代表性論文:
《基于人類注意力的序列分類》(CoNLL 2018)
Sequence classification with human attention
這篇論文提出利用視覺跟蹤語料庫中的人類注意力,來 RNN 中的注意力進(jìn)行規(guī)則化處理。鑒于 Transformer 等當(dāng)前許多模型都使用注意力這一方法,找到更有效得訓(xùn)練它的方法是一個(gè)重要的方向。同時(shí),論文還證明了另外一個(gè)案例——人類語言學(xué)習(xí)可以幫助改進(jìn)計(jì)算模型。
《語義角色標(biāo)注的語言學(xué)信息的自我注意力》(EMNLP 2018)
Linguistically-Informed Self-Attention for Semantic Role Labeling
這篇論文有很多亮點(diǎn):一個(gè)在句法和語義任務(wù)上進(jìn)行聯(lián)合訓(xùn)練的 Transformer 模型;在測(cè)試時(shí)注入高質(zhì)量語法分析的能力;以及域外評(píng)估。論文還通過訓(xùn)練注意力頭來關(guān)注每個(gè)標(biāo)注的句法 parents,來使轉(zhuǎn)換器的多頭注意力統(tǒng)一對(duì)句法更加敏感。
未來我們有望看到更多針對(duì)輸入特定場(chǎng)景,將 Transformer 注意力頭用作輔助預(yù)測(cè)器的案例。
PropBank語義角色標(biāo)注的十年。語言學(xué)信息的自我注意力( LISA )與其他域外數(shù)據(jù)方法的比較。 (Strubell et al., 2018)
Via:http://ruder.io/10-exciting-ideas-of-2018-in-nlp/,雷鋒網(wǎng) AI 科技評(píng)論編譯。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。