0
本文作者: MrBear | 2019-08-17 13:00 | 專題:ACL 2019 |
隨著自然語言處理領(lǐng)域的頂級(jí)盛會(huì) ACL 2019 落幕,亞馬遜 Alexa AI 的機(jī)器學(xué)習(xí)科學(xué)家 Mihail Eric 對(duì)本次會(huì)議進(jìn)行了一次比較全面的回顧。從奇聞?shì)W事到學(xué)術(shù)前沿,本文一網(wǎng)打盡,自然語言處理領(lǐng)域的小伙伴們不要錯(cuò)過!
本周,我有幸參加了 2019 年計(jì)算語言學(xué)協(xié)會(huì)年會(huì)(ACL),本屆會(huì)議在美麗的佛羅倫薩的一座古老的美第奇家族的城堡舉行。
我非常熱衷于參加學(xué)術(shù)會(huì)議,因?yàn)槟憧梢栽诤芏痰臅r(shí)間內(nèi)掌握研究社區(qū)的前沿思潮,了解人們的所思所想以及該領(lǐng)域的最新進(jìn)展。對(duì)于全世界的自然語言處理(NLP)研究者而言,ACL 可能是最大的盛會(huì),它為該領(lǐng)域的頂尖工作提供了一個(gè)具有代表性的抽樣展示平臺(tái)。
和其它會(huì)議一樣,有時(shí)參加 ACL 就像是在大浪淘沙,你會(huì)被淹沒在論文、演講和各種思維的海洋中。在本文中,我希望提煉出我花費(fèi)了一周時(shí)間收集到的 NLP 研究社區(qū)的關(guān)鍵知識(shí)點(diǎn)和發(fā)展趨勢(shì),并適當(dāng)?shù)貐⒖枷嚓P(guān)論文,重點(diǎn)介紹可以預(yù)見到的一些趨勢(shì)。本文中的引用必然是不完整的,所以我建議,想要了解其它有趣的工作的讀者請(qǐng)查看完整的會(huì)議論文集:
在本屆 ACL 的開幕致辭中,大會(huì)主席周明先生指出,這次會(huì)議是有史以來規(guī)模最大的一屆 ACL 大會(huì)。會(huì)議共收到了2900 余篇提交的論文,投稿規(guī)模相較于 2018 年增長(zhǎng)了 75%!自然語言處理領(lǐng)域?qū)嵲谑侵耸挚蔁幔瑢W(xué)術(shù)界和工業(yè)界的熱情都創(chuàng)下了歷史新高。
然而,這些關(guān)于大會(huì)受歡迎程度的統(tǒng)計(jì)數(shù)據(jù)并不能很全面地代表全球范圍內(nèi)對(duì)于 NLP 的關(guān)注情況。投稿量的增長(zhǎng)大多都來源于北美地區(qū)(由美國(guó)領(lǐng)銜)以及亞洲地區(qū)(由中國(guó)領(lǐng)銜),將大多數(shù)南美、非洲、以及許多歐洲國(guó)家甩在了后面。因此,當(dāng)前的 NLP 研究存在地理偏差的風(fēng)險(xiǎn),這樣一來我們就無法獲知多元化的觀點(diǎn)來塑造該領(lǐng)域的未來。
正如周明先生所說(根據(jù)他在亞太地區(qū)發(fā)展 NLP 社區(qū)的經(jīng)驗(yàn)),一種可行的解決方案是:在被忽視的地區(qū)舉辦更多的會(huì)議和活動(dòng)。在過去,這種做法成功地吸引了主辦地更多的會(huì)員參與其中。目前,已經(jīng)有許多正在實(shí)施的工作采取這種方式解決地理偏差問題(例如,「Deep Learning Indaba」,http://www.deeplearningindaba.com/)。
除了地理偏差,在當(dāng)前的自然語言處理發(fā)展進(jìn)程中,人們也逐漸意識(shí)到其它一些令人遺憾的現(xiàn)象(例如,性別偏差)。一些論文溝通過實(shí)證研究強(qiáng)調(diào)了這種性別偏差。例如,Stanovsky 等人(https://arxiv.org/abs/1906.00591)說明了,四種商用機(jī)器翻譯系統(tǒng)以及目前最先進(jìn)的兩種學(xué)術(shù)模型都非常易于出現(xiàn)與性別相關(guān)的翻譯錯(cuò)誤。
研究社區(qū)也很清楚地意識(shí)到了這個(gè)問題,并因此提出了很多有趣的工作,例如 Kaneko 等人(https://arxiv.org/pdf/1906.00742.pdf)開發(fā)了一種無偏的詞嵌入方法,它能夠保留沒有偏見的與性別相關(guān)的信息,同時(shí)去除舊系統(tǒng)中存在的性別偏差。從更高的層次上來說,今年的 ACL 和舉辦了首屆「自然語言處理中的性別偏差研討會(huì)」(Gender Bias in NLP Workshop,https://genderbiasnlp.talp.cat/)以及「擴(kuò)展自然語言處理研討會(huì)」(Widening NLP Workshop,http://www.winlp.org/winlp-2019-workshop/),致力于將這些問題的研究者聚集在一起,提高見解,促進(jìn)富有成果的討論。
當(dāng)然,我們?nèi)匀蝗沃囟肋h(yuǎn),但是看到研究社區(qū)采取積極舉措來減輕這些偏差的問題是十分令人鼓舞的。
自然語言處理領(lǐng)域的研究現(xiàn)狀令人歡欣鼓舞,因?yàn)槲覀冊(cè)谠擃I(lǐng)域開發(fā)的模型和工具有解決許多實(shí)際問題的潛力??纯幢緦脮?huì)議展示的各種各樣的 NLP 應(yīng)用,這一點(diǎn)就愈發(fā)明顯了。
在這個(gè)充斥著假新聞和虛假的神經(jīng)網(wǎng)絡(luò)新聞的時(shí)代,驗(yàn)證陳述的真實(shí)性變得越來越重要。Shengli Hu 的工作「Detecting Concealed Information in Text and Speech」(https://www.aclweb.org/anthology/P19-1039)構(gòu)建了一個(gè)利用聲學(xué)和語言學(xué)特征識(shí)別文本和語音中的隱藏信息的系統(tǒng),其性能相較于人類提升了 15%。
在健康領(lǐng)域,Shardlow 等人(https://www.aclweb.org/anthology/P19-1037)開發(fā)了一種通過特定領(lǐng)域的短語表使得醫(yī)生編寫的臨床文書對(duì)于患者來說更具可讀性的神經(jīng)網(wǎng)絡(luò)模型。相關(guān)的工作還有,Du 等人(https://arxiv.org/pdf/1906.02239.pdf)提出了根據(jù)臨床對(duì)話提取出疾病癥狀的任務(wù),并給出了一些對(duì)比基線模型,這種手段可以減少初級(jí)保健醫(yī)生花費(fèi)在與臨床文獻(xiàn)記錄系統(tǒng)交互的時(shí)間。
今年的 ACL 還專門設(shè)立了一個(gè)將 NLP 技術(shù)應(yīng)用于生物學(xué)問題的研討會(huì)(https://aclweb.org/aclwiki/BioNLP_Workshop)。例如,F(xiàn)auqueur 等人(https://arxiv.org/pdf/1907.01417.pdf)提出了用于在無需訓(xùn)練數(shù)據(jù)或手動(dòng)設(shè)計(jì)的規(guī)則的條件下,從生物醫(yī)學(xué)文獻(xiàn)中提取出新的科學(xué)事實(shí)的技術(shù)。Rajagopal 和 Vyas 等人(https://www.aclweb.org/anthology/W19-5009)的另一篇優(yōu)秀論文,則通過在大規(guī)模數(shù)據(jù)集上訓(xùn)練一個(gè) LSTM-CRF 模型,然后在「低資源」(數(shù)據(jù)量較少的)語料庫上進(jìn)行調(diào)優(yōu),從而使語義角色標(biāo)注系統(tǒng)適用于生物學(xué)過程,他們的模型性能在標(biāo)準(zhǔn)數(shù)據(jù)集上相較于以往的工作提高了 21 個(gè)百分點(diǎn)。
除此之外,NLP 領(lǐng)域還有一些很酷炫的工作,包括 Zhang 等人的論文「This Email Could Save Your Life: Introducing the Task of Email Subject Line Generation」(https://arxiv.org/abs/1906.03497),他們介紹了電子郵件主題行生成的問題(不妨想一想電子郵件智能回復(fù)功能,只不過這里的任務(wù)是生成電子郵件的標(biāo)題),并且針對(duì)該問題展示了第一個(gè)充滿前景的模型,對(duì)該模型進(jìn)行了自動(dòng)和人工評(píng)估。
正如 Krizhevsky 等人于 2011 年發(fā)表的開創(chuàng)性工作「ImageNet Classification with Deep Convolutional Neural Networks」一夜之間掀起了計(jì)算機(jī)視覺領(lǐng)域的革命,深度學(xué)習(xí)在自然語言處理領(lǐng)域的應(yīng)用同樣也處于爆炸性的快速增長(zhǎng)期。
從 2015 到 2017 年,NLP 領(lǐng)域中的大多數(shù)任務(wù)都可以通過一個(gè)相對(duì)簡(jiǎn)單的范式來解決:通過某種連續(xù)的向量表征嵌入文本輸入,對(duì)這些表征進(jìn)行編碼,對(duì)編碼后的表征應(yīng)用注意力機(jī)制,對(duì)任務(wù)進(jìn)行預(yù)測(cè)。Matthew Honnibal 的博文(https://explosion.ai/blog/deep-learning-formula-nlp)對(duì)介紹了這種范式。
雖然從概念上說很簡(jiǎn)單,但「嵌入、編碼、注意、預(yù)測(cè)」的范式似乎在 NLP 領(lǐng)域勢(shì)不可擋,在所有類型的任務(wù)(例如機(jī)器翻譯、問答系統(tǒng)、自然語言推理等等)上都取得了目前最先進(jìn)的性能。這樣的范式在過去一段時(shí)間內(nèi),似乎是無所不能的。
現(xiàn)在,NLP 領(lǐng)域可謂是「城頭變幻大王旗」了。隨著強(qiáng)大的預(yù)訓(xùn)練表征的出現(xiàn),一些使用語言建模目標(biāo)進(jìn)行訓(xùn)練(例如,ELMO,https://arxiv.org/abs/1802.05365),OpenAI GPT(https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf),以及 BERT(https://arxiv.org/pdf/1810.04805.pdf)的 NLP 技術(shù)已經(jīng)可以被直接使用,它們?cè)诖笠?guī)模數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,然后在一些較小的領(lǐng)域內(nèi)的語料庫上針對(duì)任務(wù)進(jìn)行調(diào)優(yōu)。實(shí)際上,這種策略已經(jīng)成功地在現(xiàn)有的 NLP 對(duì)比基準(zhǔn)實(shí)驗(yàn)中取得了目前最先進(jìn)的性能。
在本屆 ACL 上,這種策略的主導(dǎo)地位被一些已經(jīng)發(fā)表的工作,以及人們對(duì)于 NLP 領(lǐng)域研究現(xiàn)狀的普遍態(tài)度進(jìn)一步強(qiáng)化了。其中,Dai 和 Yang 等人的工作試圖進(jìn)一步推動(dòng)基于 Transformer 的超級(jí)模型的發(fā)展,極大地提升它們的運(yùn)行速度,實(shí)現(xiàn)目前最先進(jìn)的模型性能。這種新范式的另一個(gè)非常具有代表性的工作是 Liu 和 He 等人提出的「Multi-Task Deep Neural Networks for Natural Language Understanding」,他們利用一個(gè)基于 BERT 的架構(gòu)成功登頂 GLUE 對(duì)比基準(zhǔn)排行榜。(目前排名第3)
除了這些工作本身,圍繞會(huì)議產(chǎn)生的最多的討論是,如果使用像 BERT這樣的訓(xùn)練方法,研究者們之前提出的許多架構(gòu)可以實(shí)現(xiàn)幾個(gè)百分點(diǎn)的提升。那么問題來了:這種新的范式是否使許多 NLP 領(lǐng)域在建模方面的創(chuàng)新變得不值一提了?
針對(duì)該問題,我個(gè)人持否定態(tài)度??偟膩碚f,仍然有很多工作沒有得到充分的研究,而這些工作對(duì)于推進(jìn) NLP 領(lǐng)域在未來的發(fā)展是至關(guān)重要的。下面,我將列舉出其中的一些工作。
雖然現(xiàn)有的經(jīng)過預(yù)訓(xùn)練的語言超級(jí)模型架構(gòu)十分強(qiáng)大,但是根據(jù)原始文本語料庫訓(xùn)練這些模型的方式鼓勵(lì)了一種「學(xué)到什么就是什么」(you get what you get)的風(fēng)潮。換句話說,他們所學(xué)到的東西是幾乎不受限制的,而這些模型的卓越性能可能只是由于在龐大的訓(xùn)練數(shù)據(jù)集中遇到各種各樣的上下文中的許多實(shí)例,從而表現(xiàn)出的功能。我們能否融合相關(guān)的知識(shí)資源中的信息來對(duì)此進(jìn)行改進(jìn)呢?
在本屆 ACL 上,有許多論文試圖解決這個(gè)問題。例如,Zhang 等人(https://arxiv.org/pdf/1905.07129.pdf)將類型化的實(shí)體嵌入和實(shí)體對(duì)齊技術(shù)應(yīng)用到了一個(gè)底層知識(shí)圖譜上,從而改進(jìn) BERT 的表征,證明了他們的模型可以在實(shí)體分類和關(guān)系分類任務(wù)中超越 BERT 模型。Yang 等人(https://www.aclweb.org/anthology/P19-1226)也提出了 KT-NET 來解決這個(gè)問題,該模型使用了一個(gè)注意力機(jī)制來融合從知識(shí)庫(例如,WordNet 和 NELL)中選擇的信息,從而在 Squad 1.1 機(jī)器閱讀理解任務(wù)中取得了最先進(jìn)的性能。Logan 等人(https://arxiv.org/pdf/1906.07241.pdf)撰寫的另一篇優(yōu)秀的論文提出了知識(shí)圖譜語言模型,這是一種生成式架構(gòu),它能夠有選擇性地根據(jù)一個(gè)與底層上下文語境相關(guān)的知識(shí)圖譜中復(fù)制出事實(shí),其性能優(yōu)于許多強(qiáng)大的語言模型對(duì)比基線。
盡管將知識(shí)諸如神經(jīng)模型是一件相當(dāng)困難的事,但這些研究成果仍然令人振奮!
眾所周知,神經(jīng)網(wǎng)絡(luò)是一種黑箱模型,因此很難真正理解所學(xué)到的決策函數(shù)。暫且不考慮完全可以解釋這些模型是否是必要的,但我們至少可以認(rèn)為,對(duì)模型內(nèi)部在某種程度上的理解可以對(duì)未來的架構(gòu)設(shè)計(jì)產(chǎn)生深遠(yuǎn)的影響。在本屆 ACL 上,也有一些優(yōu)秀的論文旨在解釋一些現(xiàn)有的模型。
Serrano 等人(https://arxiv.org/pdf/1906.03731.pdf)的工作向「注意力機(jī)制可以突顯出模型的重要概念」的普遍看法提出了挑戰(zhàn),他們說明這種觀點(diǎn)雖然有時(shí)是成立的,但是在有些情況下,其它的排序度量標(biāo)準(zhǔn)可能對(duì)于表示出模型的決策過程更加有效。
另一方面,Jawahar(https://hal.inria.fr/hal-02131630/document)等人深入探討了利用 BERT 學(xué)到的語言結(jié)構(gòu),說明了 BERT 的網(wǎng)絡(luò)層學(xué)到了豐富的語言信息(例如,底層網(wǎng)絡(luò)學(xué)習(xí)到了表面的語言特征,中間層網(wǎng)絡(luò)學(xué)到了句法特征,頂層網(wǎng)絡(luò)學(xué)到了語義特征)。作者認(rèn)為,對(duì)于學(xué)習(xí)遠(yuǎn)距離依賴信息,使用更深的網(wǎng)絡(luò)層架構(gòu)是很有必要的。
還有許多其它的工作也討論了模型的可解釋性。Gehrmann 等人(https://arxiv.org/pdf/1906.04043.pdf)研發(fā)了一種工具,它可以通過可視化預(yù)測(cè)單詞的模型密度,來檢測(cè)用神經(jīng)網(wǎng)絡(luò)生成的虛假文本,使人類用戶可以將其檢測(cè)率提升近 20%。Sydorova 等人(https://arxiv.org/pdf/1906.10924.pdf)在問答系統(tǒng)上研究了許多諸如「LIME」(https://github.com/marcotcr/lime)的事后解釋方法,說明某些技術(shù)可以幫助人們從多個(gè)選項(xiàng)中找出優(yōu)秀的問答系統(tǒng)模型。
作為對(duì)話系統(tǒng)的從業(yè)者,在我看來,自然語言生成任務(wù)的復(fù)雜性是很棘手的。尤其是,對(duì)于研究社區(qū)來說,對(duì)模型的評(píng)價(jià)仍然是一個(gè)非常富有正義的問題,因此看到研究者們積極地改善現(xiàn)狀是十分令人鼓舞的。
對(duì)于初學(xué)者來說,Maxime Peyrard(https://www.aclweb.org/anthology/P19-1502)證明了,在評(píng)價(jià)特定得分范圍內(nèi)的性能時(shí),某些用于文本自動(dòng)摘要的自動(dòng)化的評(píng)價(jià)指標(biāo)存在不一致性。Clark 等人(https://homes.cs.washington.edu/~nasmith/papers/clark+celikyilmaz+smith.acl19.pdf)也提出了一種新的基于句子移動(dòng)相似度(sentence mover’s similarity)的生成文本評(píng)價(jià)指標(biāo),該指標(biāo)被證明比標(biāo)準(zhǔn)的 ROUGE 指標(biāo)更符合人類的判斷。
模型生成的文本往往會(huì)出現(xiàn)「事實(shí)錯(cuò)誤」(factual errors)和「虛假陳述」(spurious statements)的問題。因此,F(xiàn)alke 等人(https://leoribeiro.github.io/papers/acl19-summary-correctness.pdf)研究了是否可以用自然語言推理系統(tǒng)對(duì)輸出進(jìn)行重排序,從而解決該問題。他們發(fā)現(xiàn)現(xiàn)成的自然語言推理系統(tǒng)并不能適用于下游任務(wù),并提供了一些使這些系統(tǒng)能夠達(dá)到必要性能的工具。
Maxime Peyrard 的更加基礎(chǔ)的工作(https://www.aclweb.org/anthology/P19-1101)則在理論上嚴(yán)格地定義了本文自動(dòng)摘要領(lǐng)域的某些概念(例如,冗余度、相關(guān)性、信息量)。
除了模型評(píng)價(jià),Sankar 等人(https://arxiv.org/abs/1906.01603)的優(yōu)秀工作對(duì)「?jìng)鹘y(tǒng)的基于循環(huán)神經(jīng)網(wǎng)絡(luò)」和「基于 Transformer」的序列到序列(Seq2Seq)的對(duì)話模型從對(duì)話歷史中學(xué)到的某些假設(shè)提出了質(zhì)疑。他們特別指出,這些模型對(duì)于某些應(yīng)用于上下文的擾動(dòng)并不十分敏感,這對(duì)目前的自然語言對(duì)話生成器提出了挑戰(zhàn)。
經(jīng)過不斷的迭代,雖然當(dāng)前的 NLP 模型似乎已經(jīng)達(dá)到了最先進(jìn)的水平,但是 NLP 研究社區(qū)的主流觀點(diǎn)仍然是:還有一些問題需要改進(jìn)。由于我們經(jīng)常使用對(duì)比基準(zhǔn)來衡量任務(wù)的研究進(jìn)展,我們漸漸遇到了一些棘手的情況,而且這些模型中有許多已經(jīng)在現(xiàn)有的 NLP 對(duì)比基準(zhǔn)上超過了人類的表現(xiàn)。那么我們應(yīng)該怎么辦呢?
這就是 Zellers等人(https://arxiv.org/pdf/1905.07830.pdf)提出的問題,在早期的工作中,它為常識(shí)性的自然語言推理問題提供了一個(gè)挑戰(zhàn)性的數(shù)據(jù)集,結(jié)果在發(fā)布后不就就發(fā)現(xiàn) BERT 已經(jīng)達(dá)到了與人類相近的表現(xiàn)。為了讓問題變得更困難一點(diǎn),作者發(fā)布了一個(gè)后續(xù)的數(shù)據(jù)集,該數(shù)據(jù)集使用一種叫做對(duì)抗性過濾的技術(shù)選擇出令 BERT 和其它模型難以回答的示例。在這個(gè)過程中,他們大大增加了對(duì)比基準(zhǔn)測(cè)試的復(fù)雜度。
BERT 當(dāng)然并非完美。Nangia 等人(https://arxiv.org/pdf/1905.10425.pdf)的研究表明,基于 BERT 的模型難以應(yīng)對(duì)低資源(可用數(shù)據(jù)量較少)的句子分類任務(wù),并提出了一個(gè)被稱為「SuperGLUE」(https://arxiv.org/pdf/1905.00537.pdf)的后續(xù)的自然語言理解對(duì)比基準(zhǔn),專門對(duì)這種機(jī)制進(jìn)行評(píng)價(jià)。
McCoy 等人(https://arxiv.org/pdf/1902.01007.pdf)的另一項(xiàng)工作則說明了,應(yīng)用于自然語言推理的 BERT 模型實(shí)際上學(xué)習(xí)到了非常簡(jiǎn)單的語法啟發(fā)信息,但這些啟發(fā)信息不能很好地泛化到其它的推演(entailment)例子中。他們也發(fā)布了一個(gè)評(píng)價(jià)數(shù)據(jù)集,從而確定模型是否采用在采用了這些啟發(fā)信息后也沒能解決更一般的推理問題。
Min 和 Wallace 等人(https://arxiv.org/pdf/1906.02900.pdf)的另一篇相關(guān)論文說明了,許多針對(duì) HotpotQA 數(shù)據(jù)集(一個(gè)多條問答對(duì)比基準(zhǔn))提出的模型,實(shí)際上并不需要執(zhí)行多跳推理來獲得良好的性能。
總的來說,我認(rèn)為現(xiàn)在大部分的模型仍然是在針對(duì)特定數(shù)據(jù)集做工作,而不是針對(duì)特定任務(wù)。我們建立的模型可以非常有效地收集和利用數(shù)據(jù)集特有的偏差。在這個(gè)過程中,我們的評(píng)價(jià)指標(biāo)又為我們展示了相當(dāng)具有誤導(dǎo)性的分析結(jié)果。這讓我想起了「古德哈特定律」 :當(dāng)一項(xiàng)指標(biāo)成為目標(biāo)時(shí),那么他就不再是一個(gè)好的指標(biāo)(一項(xiàng)社會(huì)指標(biāo)或經(jīng)濟(jì)指標(biāo),一旦成為一個(gè)用以指引宏觀政策制定的既定目標(biāo),那么該指標(biāo)就會(huì)喪失其原本具有的信息價(jià)值)。那么,接下來我們?cè)撊绾巫瞿兀?/p>
考慮到這些評(píng)價(jià)對(duì)比基準(zhǔn)對(duì)于自然語言任務(wù)發(fā)展的重要意義,以及模型開發(fā)的速度,假設(shè)對(duì)比基準(zhǔn)一成不變似乎是不合理的。相反,我發(fā)現(xiàn)開發(fā)一套不斷演化的、難度越來越大的對(duì)比基準(zhǔn),提高自然語言能力的門檻,是特別有前景的。也許從某種程度上來說,這就是我們實(shí)現(xiàn)令機(jī)器具有人類級(jí)別的自然語言能力的方式。
總而言之,一周的 ACL 見聞讓我感到 NLP 領(lǐng)域正在蓬勃發(fā)展!NLP 研究社區(qū)迎來了它的黃金時(shí)代,許多前景光明的發(fā)展機(jī)遇就在前方。雖然研究社區(qū)在過去的一年中碩果累累,但仍有許多突出的挑戰(zhàn)和尚待解決的問題等待著研究者們?nèi)スタ耍?/p>
via https://www.mihaileric.com/posts/nlp-trends-acl-2019/. 雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章