0
本文作者: MrBear | 2019-08-17 13:00 | 專題:ACL 2019 |
隨著自然語言處理領(lǐng)域的頂級盛會 ACL 2019 落幕,亞馬遜 Alexa AI 的機器學(xué)習(xí)科學(xué)家 Mihail Eric 對本次會議進行了一次比較全面的回顧。從奇聞軼事到學(xué)術(shù)前沿,本文一網(wǎng)打盡,自然語言處理領(lǐng)域的小伙伴們不要錯過!
本周,我有幸參加了 2019 年計算語言學(xué)協(xié)會年會(ACL),本屆會議在美麗的佛羅倫薩的一座古老的美第奇家族的城堡舉行。
我非常熱衷于參加學(xué)術(shù)會議,因為你可以在很短的時間內(nèi)掌握研究社區(qū)的前沿思潮,了解人們的所思所想以及該領(lǐng)域的最新進展。對于全世界的自然語言處理(NLP)研究者而言,ACL 可能是最大的盛會,它為該領(lǐng)域的頂尖工作提供了一個具有代表性的抽樣展示平臺。
和其它會議一樣,有時參加 ACL 就像是在大浪淘沙,你會被淹沒在論文、演講和各種思維的海洋中。在本文中,我希望提煉出我花費了一周時間收集到的 NLP 研究社區(qū)的關(guān)鍵知識點和發(fā)展趨勢,并適當(dāng)?shù)貐⒖枷嚓P(guān)論文,重點介紹可以預(yù)見到的一些趨勢。本文中的引用必然是不完整的,所以我建議,想要了解其它有趣的工作的讀者請查看完整的會議論文集:
在本屆 ACL 的開幕致辭中,大會主席周明先生指出,這次會議是有史以來規(guī)模最大的一屆 ACL 大會。會議共收到了2900 余篇提交的論文,投稿規(guī)模相較于 2018 年增長了 75%!自然語言處理領(lǐng)域?qū)嵲谑侵耸挚蔁幔瑢W(xué)術(shù)界和工業(yè)界的熱情都創(chuàng)下了歷史新高。
然而,這些關(guān)于大會受歡迎程度的統(tǒng)計數(shù)據(jù)并不能很全面地代表全球范圍內(nèi)對于 NLP 的關(guān)注情況。投稿量的增長大多都來源于北美地區(qū)(由美國領(lǐng)銜)以及亞洲地區(qū)(由中國領(lǐng)銜),將大多數(shù)南美、非洲、以及許多歐洲國家甩在了后面。因此,當(dāng)前的 NLP 研究存在地理偏差的風(fēng)險,這樣一來我們就無法獲知多元化的觀點來塑造該領(lǐng)域的未來。
正如周明先生所說(根據(jù)他在亞太地區(qū)發(fā)展 NLP 社區(qū)的經(jīng)驗),一種可行的解決方案是:在被忽視的地區(qū)舉辦更多的會議和活動。在過去,這種做法成功地吸引了主辦地更多的會員參與其中。目前,已經(jīng)有許多正在實施的工作采取這種方式解決地理偏差問題(例如,「Deep Learning Indaba」,http://www.deeplearningindaba.com/)。
除了地理偏差,在當(dāng)前的自然語言處理發(fā)展進程中,人們也逐漸意識到其它一些令人遺憾的現(xiàn)象(例如,性別偏差)。一些論文溝通過實證研究強調(diào)了這種性別偏差。例如,Stanovsky 等人(https://arxiv.org/abs/1906.00591)說明了,四種商用機器翻譯系統(tǒng)以及目前最先進的兩種學(xué)術(shù)模型都非常易于出現(xiàn)與性別相關(guān)的翻譯錯誤。
研究社區(qū)也很清楚地意識到了這個問題,并因此提出了很多有趣的工作,例如 Kaneko 等人(https://arxiv.org/pdf/1906.00742.pdf)開發(fā)了一種無偏的詞嵌入方法,它能夠保留沒有偏見的與性別相關(guān)的信息,同時去除舊系統(tǒng)中存在的性別偏差。從更高的層次上來說,今年的 ACL 和舉辦了首屆「自然語言處理中的性別偏差研討會」(Gender Bias in NLP Workshop,https://genderbiasnlp.talp.cat/)以及「擴展自然語言處理研討會」(Widening NLP Workshop,http://www.winlp.org/winlp-2019-workshop/),致力于將這些問題的研究者聚集在一起,提高見解,促進富有成果的討論。
當(dāng)然,我們?nèi)匀蝗沃囟肋h,但是看到研究社區(qū)采取積極舉措來減輕這些偏差的問題是十分令人鼓舞的。
自然語言處理領(lǐng)域的研究現(xiàn)狀令人歡欣鼓舞,因為我們在該領(lǐng)域開發(fā)的模型和工具有解決許多實際問題的潛力??纯幢緦脮h展示的各種各樣的 NLP 應(yīng)用,這一點就愈發(fā)明顯了。
在這個充斥著假新聞和虛假的神經(jīng)網(wǎng)絡(luò)新聞的時代,驗證陳述的真實性變得越來越重要。Shengli Hu 的工作「Detecting Concealed Information in Text and Speech」(https://www.aclweb.org/anthology/P19-1039)構(gòu)建了一個利用聲學(xué)和語言學(xué)特征識別文本和語音中的隱藏信息的系統(tǒng),其性能相較于人類提升了 15%。
在健康領(lǐng)域,Shardlow 等人(https://www.aclweb.org/anthology/P19-1037)開發(fā)了一種通過特定領(lǐng)域的短語表使得醫(yī)生編寫的臨床文書對于患者來說更具可讀性的神經(jīng)網(wǎng)絡(luò)模型。相關(guān)的工作還有,Du 等人(https://arxiv.org/pdf/1906.02239.pdf)提出了根據(jù)臨床對話提取出疾病癥狀的任務(wù),并給出了一些對比基線模型,這種手段可以減少初級保健醫(yī)生花費在與臨床文獻記錄系統(tǒng)交互的時間。
今年的 ACL 還專門設(shè)立了一個將 NLP 技術(shù)應(yīng)用于生物學(xué)問題的研討會(https://aclweb.org/aclwiki/BioNLP_Workshop)。例如,F(xiàn)auqueur 等人(https://arxiv.org/pdf/1907.01417.pdf)提出了用于在無需訓(xùn)練數(shù)據(jù)或手動設(shè)計的規(guī)則的條件下,從生物醫(yī)學(xué)文獻中提取出新的科學(xué)事實的技術(shù)。Rajagopal 和 Vyas 等人(https://www.aclweb.org/anthology/W19-5009)的另一篇優(yōu)秀論文,則通過在大規(guī)模數(shù)據(jù)集上訓(xùn)練一個 LSTM-CRF 模型,然后在「低資源」(數(shù)據(jù)量較少的)語料庫上進行調(diào)優(yōu),從而使語義角色標(biāo)注系統(tǒng)適用于生物學(xué)過程,他們的模型性能在標(biāo)準(zhǔn)數(shù)據(jù)集上相較于以往的工作提高了 21 個百分點。
除此之外,NLP 領(lǐng)域還有一些很酷炫的工作,包括 Zhang 等人的論文「This Email Could Save Your Life: Introducing the Task of Email Subject Line Generation」(https://arxiv.org/abs/1906.03497),他們介紹了電子郵件主題行生成的問題(不妨想一想電子郵件智能回復(fù)功能,只不過這里的任務(wù)是生成電子郵件的標(biāo)題),并且針對該問題展示了第一個充滿前景的模型,對該模型進行了自動和人工評估。
正如 Krizhevsky 等人于 2011 年發(fā)表的開創(chuàng)性工作「ImageNet Classification with Deep Convolutional Neural Networks」一夜之間掀起了計算機視覺領(lǐng)域的革命,深度學(xué)習(xí)在自然語言處理領(lǐng)域的應(yīng)用同樣也處于爆炸性的快速增長期。
從 2015 到 2017 年,NLP 領(lǐng)域中的大多數(shù)任務(wù)都可以通過一個相對簡單的范式來解決:通過某種連續(xù)的向量表征嵌入文本輸入,對這些表征進行編碼,對編碼后的表征應(yīng)用注意力機制,對任務(wù)進行預(yù)測。Matthew Honnibal 的博文(https://explosion.ai/blog/deep-learning-formula-nlp)對介紹了這種范式。
雖然從概念上說很簡單,但「嵌入、編碼、注意、預(yù)測」的范式似乎在 NLP 領(lǐng)域勢不可擋,在所有類型的任務(wù)(例如機器翻譯、問答系統(tǒng)、自然語言推理等等)上都取得了目前最先進的性能。這樣的范式在過去一段時間內(nèi),似乎是無所不能的。
現(xiàn)在,NLP 領(lǐng)域可謂是「城頭變幻大王旗」了。隨著強大的預(yù)訓(xùn)練表征的出現(xiàn),一些使用語言建模目標(biāo)進行訓(xùn)練(例如,ELMO,https://arxiv.org/abs/1802.05365),OpenAI GPT(https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf),以及 BERT(https://arxiv.org/pdf/1810.04805.pdf)的 NLP 技術(shù)已經(jīng)可以被直接使用,它們在大規(guī)模數(shù)據(jù)上進行預(yù)訓(xùn)練,然后在一些較小的領(lǐng)域內(nèi)的語料庫上針對任務(wù)進行調(diào)優(yōu)。實際上,這種策略已經(jīng)成功地在現(xiàn)有的 NLP 對比基準(zhǔn)實驗中取得了目前最先進的性能。
在本屆 ACL 上,這種策略的主導(dǎo)地位被一些已經(jīng)發(fā)表的工作,以及人們對于 NLP 領(lǐng)域研究現(xiàn)狀的普遍態(tài)度進一步強化了。其中,Dai 和 Yang 等人的工作試圖進一步推動基于 Transformer 的超級模型的發(fā)展,極大地提升它們的運行速度,實現(xiàn)目前最先進的模型性能。這種新范式的另一個非常具有代表性的工作是 Liu 和 He 等人提出的「Multi-Task Deep Neural Networks for Natural Language Understanding」,他們利用一個基于 BERT 的架構(gòu)成功登頂 GLUE 對比基準(zhǔn)排行榜。(目前排名第3)
除了這些工作本身,圍繞會議產(chǎn)生的最多的討論是,如果使用像 BERT這樣的訓(xùn)練方法,研究者們之前提出的許多架構(gòu)可以實現(xiàn)幾個百分點的提升。那么問題來了:這種新的范式是否使許多 NLP 領(lǐng)域在建模方面的創(chuàng)新變得不值一提了?
針對該問題,我個人持否定態(tài)度??偟膩碚f,仍然有很多工作沒有得到充分的研究,而這些工作對于推進 NLP 領(lǐng)域在未來的發(fā)展是至關(guān)重要的。下面,我將列舉出其中的一些工作。
雖然現(xiàn)有的經(jīng)過預(yù)訓(xùn)練的語言超級模型架構(gòu)十分強大,但是根據(jù)原始文本語料庫訓(xùn)練這些模型的方式鼓勵了一種「學(xué)到什么就是什么」(you get what you get)的風(fēng)潮。換句話說,他們所學(xué)到的東西是幾乎不受限制的,而這些模型的卓越性能可能只是由于在龐大的訓(xùn)練數(shù)據(jù)集中遇到各種各樣的上下文中的許多實例,從而表現(xiàn)出的功能。我們能否融合相關(guān)的知識資源中的信息來對此進行改進呢?
在本屆 ACL 上,有許多論文試圖解決這個問題。例如,Zhang 等人(https://arxiv.org/pdf/1905.07129.pdf)將類型化的實體嵌入和實體對齊技術(shù)應(yīng)用到了一個底層知識圖譜上,從而改進 BERT 的表征,證明了他們的模型可以在實體分類和關(guān)系分類任務(wù)中超越 BERT 模型。Yang 等人(https://www.aclweb.org/anthology/P19-1226)也提出了 KT-NET 來解決這個問題,該模型使用了一個注意力機制來融合從知識庫(例如,WordNet 和 NELL)中選擇的信息,從而在 Squad 1.1 機器閱讀理解任務(wù)中取得了最先進的性能。Logan 等人(https://arxiv.org/pdf/1906.07241.pdf)撰寫的另一篇優(yōu)秀的論文提出了知識圖譜語言模型,這是一種生成式架構(gòu),它能夠有選擇性地根據(jù)一個與底層上下文語境相關(guān)的知識圖譜中復(fù)制出事實,其性能優(yōu)于許多強大的語言模型對比基線。
盡管將知識諸如神經(jīng)模型是一件相當(dāng)困難的事,但這些研究成果仍然令人振奮!
眾所周知,神經(jīng)網(wǎng)絡(luò)是一種黑箱模型,因此很難真正理解所學(xué)到的決策函數(shù)。暫且不考慮完全可以解釋這些模型是否是必要的,但我們至少可以認為,對模型內(nèi)部在某種程度上的理解可以對未來的架構(gòu)設(shè)計產(chǎn)生深遠的影響。在本屆 ACL 上,也有一些優(yōu)秀的論文旨在解釋一些現(xiàn)有的模型。
Serrano 等人(https://arxiv.org/pdf/1906.03731.pdf)的工作向「注意力機制可以突顯出模型的重要概念」的普遍看法提出了挑戰(zhàn),他們說明這種觀點雖然有時是成立的,但是在有些情況下,其它的排序度量標(biāo)準(zhǔn)可能對于表示出模型的決策過程更加有效。
另一方面,Jawahar(https://hal.inria.fr/hal-02131630/document)等人深入探討了利用 BERT 學(xué)到的語言結(jié)構(gòu),說明了 BERT 的網(wǎng)絡(luò)層學(xué)到了豐富的語言信息(例如,底層網(wǎng)絡(luò)學(xué)習(xí)到了表面的語言特征,中間層網(wǎng)絡(luò)學(xué)到了句法特征,頂層網(wǎng)絡(luò)學(xué)到了語義特征)。作者認為,對于學(xué)習(xí)遠距離依賴信息,使用更深的網(wǎng)絡(luò)層架構(gòu)是很有必要的。
還有許多其它的工作也討論了模型的可解釋性。Gehrmann 等人(https://arxiv.org/pdf/1906.04043.pdf)研發(fā)了一種工具,它可以通過可視化預(yù)測單詞的模型密度,來檢測用神經(jīng)網(wǎng)絡(luò)生成的虛假文本,使人類用戶可以將其檢測率提升近 20%。Sydorova 等人(https://arxiv.org/pdf/1906.10924.pdf)在問答系統(tǒng)上研究了許多諸如「LIME」(https://github.com/marcotcr/lime)的事后解釋方法,說明某些技術(shù)可以幫助人們從多個選項中找出優(yōu)秀的問答系統(tǒng)模型。
作為對話系統(tǒng)的從業(yè)者,在我看來,自然語言生成任務(wù)的復(fù)雜性是很棘手的。尤其是,對于研究社區(qū)來說,對模型的評價仍然是一個非常富有正義的問題,因此看到研究者們積極地改善現(xiàn)狀是十分令人鼓舞的。
對于初學(xué)者來說,Maxime Peyrard(https://www.aclweb.org/anthology/P19-1502)證明了,在評價特定得分范圍內(nèi)的性能時,某些用于文本自動摘要的自動化的評價指標(biāo)存在不一致性。Clark 等人(https://homes.cs.washington.edu/~nasmith/papers/clark+celikyilmaz+smith.acl19.pdf)也提出了一種新的基于句子移動相似度(sentence mover’s similarity)的生成文本評價指標(biāo),該指標(biāo)被證明比標(biāo)準(zhǔn)的 ROUGE 指標(biāo)更符合人類的判斷。
模型生成的文本往往會出現(xiàn)「事實錯誤」(factual errors)和「虛假陳述」(spurious statements)的問題。因此,F(xiàn)alke 等人(https://leoribeiro.github.io/papers/acl19-summary-correctness.pdf)研究了是否可以用自然語言推理系統(tǒng)對輸出進行重排序,從而解決該問題。他們發(fā)現(xiàn)現(xiàn)成的自然語言推理系統(tǒng)并不能適用于下游任務(wù),并提供了一些使這些系統(tǒng)能夠達到必要性能的工具。
Maxime Peyrard 的更加基礎(chǔ)的工作(https://www.aclweb.org/anthology/P19-1101)則在理論上嚴(yán)格地定義了本文自動摘要領(lǐng)域的某些概念(例如,冗余度、相關(guān)性、信息量)。
除了模型評價,Sankar 等人(https://arxiv.org/abs/1906.01603)的優(yōu)秀工作對「傳統(tǒng)的基于循環(huán)神經(jīng)網(wǎng)絡(luò)」和「基于 Transformer」的序列到序列(Seq2Seq)的對話模型從對話歷史中學(xué)到的某些假設(shè)提出了質(zhì)疑。他們特別指出,這些模型對于某些應(yīng)用于上下文的擾動并不十分敏感,這對目前的自然語言對話生成器提出了挑戰(zhàn)。
經(jīng)過不斷的迭代,雖然當(dāng)前的 NLP 模型似乎已經(jīng)達到了最先進的水平,但是 NLP 研究社區(qū)的主流觀點仍然是:還有一些問題需要改進。由于我們經(jīng)常使用對比基準(zhǔn)來衡量任務(wù)的研究進展,我們漸漸遇到了一些棘手的情況,而且這些模型中有許多已經(jīng)在現(xiàn)有的 NLP 對比基準(zhǔn)上超過了人類的表現(xiàn)。那么我們應(yīng)該怎么辦呢?
這就是 Zellers等人(https://arxiv.org/pdf/1905.07830.pdf)提出的問題,在早期的工作中,它為常識性的自然語言推理問題提供了一個挑戰(zhàn)性的數(shù)據(jù)集,結(jié)果在發(fā)布后不就就發(fā)現(xiàn) BERT 已經(jīng)達到了與人類相近的表現(xiàn)。為了讓問題變得更困難一點,作者發(fā)布了一個后續(xù)的數(shù)據(jù)集,該數(shù)據(jù)集使用一種叫做對抗性過濾的技術(shù)選擇出令 BERT 和其它模型難以回答的示例。在這個過程中,他們大大增加了對比基準(zhǔn)測試的復(fù)雜度。
BERT 當(dāng)然并非完美。Nangia 等人(https://arxiv.org/pdf/1905.10425.pdf)的研究表明,基于 BERT 的模型難以應(yīng)對低資源(可用數(shù)據(jù)量較少)的句子分類任務(wù),并提出了一個被稱為「SuperGLUE」(https://arxiv.org/pdf/1905.00537.pdf)的后續(xù)的自然語言理解對比基準(zhǔn),專門對這種機制進行評價。
McCoy 等人(https://arxiv.org/pdf/1902.01007.pdf)的另一項工作則說明了,應(yīng)用于自然語言推理的 BERT 模型實際上學(xué)習(xí)到了非常簡單的語法啟發(fā)信息,但這些啟發(fā)信息不能很好地泛化到其它的推演(entailment)例子中。他們也發(fā)布了一個評價數(shù)據(jù)集,從而確定模型是否采用在采用了這些啟發(fā)信息后也沒能解決更一般的推理問題。
Min 和 Wallace 等人(https://arxiv.org/pdf/1906.02900.pdf)的另一篇相關(guān)論文說明了,許多針對 HotpotQA 數(shù)據(jù)集(一個多條問答對比基準(zhǔn))提出的模型,實際上并不需要執(zhí)行多跳推理來獲得良好的性能。
總的來說,我認為現(xiàn)在大部分的模型仍然是在針對特定數(shù)據(jù)集做工作,而不是針對特定任務(wù)。我們建立的模型可以非常有效地收集和利用數(shù)據(jù)集特有的偏差。在這個過程中,我們的評價指標(biāo)又為我們展示了相當(dāng)具有誤導(dǎo)性的分析結(jié)果。這讓我想起了「古德哈特定律」 :當(dāng)一項指標(biāo)成為目標(biāo)時,那么他就不再是一個好的指標(biāo)(一項社會指標(biāo)或經(jīng)濟指標(biāo),一旦成為一個用以指引宏觀政策制定的既定目標(biāo),那么該指標(biāo)就會喪失其原本具有的信息價值)。那么,接下來我們該如何做呢?
考慮到這些評價對比基準(zhǔn)對于自然語言任務(wù)發(fā)展的重要意義,以及模型開發(fā)的速度,假設(shè)對比基準(zhǔn)一成不變似乎是不合理的。相反,我發(fā)現(xiàn)開發(fā)一套不斷演化的、難度越來越大的對比基準(zhǔn),提高自然語言能力的門檻,是特別有前景的。也許從某種程度上來說,這就是我們實現(xiàn)令機器具有人類級別的自然語言能力的方式。
總而言之,一周的 ACL 見聞讓我感到 NLP 領(lǐng)域正在蓬勃發(fā)展!NLP 研究社區(qū)迎來了它的黃金時代,許多前景光明的發(fā)展機遇就在前方。雖然研究社區(qū)在過去的一年中碩果累累,但仍有許多突出的挑戰(zhàn)和尚待解決的問題等待著研究者們?nèi)スタ耍?/p>
via https://www.mihaileric.com/posts/nlp-trends-acl-2019/. 雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。