0
本文作者: 我在思考中 | 2021-11-24 18:31 |
近日EMNLP 2021在多米尼加共和國閉幕,今年EMNLP收到有效投稿3717篇,中國大陸投稿1137篇,接收207篇,接受率為18%。作為NLP四大頂會之一,EMNLP備受國內(nèi)學(xué)者青睞,投稿量連續(xù)多年超過美國位居榜首。
EMNLP 由國際自然語言學(xué)會(ACL)下屬的 SIGDAT 數(shù)據(jù)小組創(chuàng)辦,在全球NLP頂會排行榜上位居第二,會議質(zhì)量僅次于ACL。比較而言,ACL會議歷史悠久,兼顧語言探索與經(jīng)驗方法,是綜合質(zhì)量最高的會議;EMNLP更聚焦NLP算法在各個領(lǐng)域解決方案的學(xué)術(shù)探討,定位更加強調(diào)工程化,二者可謂互補。
隨著AI頂會投稿量的持續(xù)增長,EMNLP的審稿質(zhì)量和公平性問題成為學(xué)者們關(guān)心的話題。近日,AI科技評論對話EMNLP 2021程序主席黃萱菁教授,圍繞EMNLP投稿趨勢,審稿流程與標(biāo)準(zhǔn)、學(xué)生應(yīng)該如何投稿”等話題與之進行了交流。
AI科技評論:EMNLP 2021的審稿流程是怎樣的,您作為程序主席主要負責(zé)哪些工作?
實際上EMNLP 2020 結(jié)束后,2021年的籌備工作就已經(jīng)開始了。整整一年下來工作量還是非常大的,尤其是Deadline和錄用前后,是最忙的兩個時間段。今年我們有三位共同程序主席,除了我之外,還有倫敦帝國理工學(xué)院的Lucia Specia教授,F(xiàn)acebook高級研究員Scott Yih。在前期準(zhǔn)備工作上,第一項任務(wù)就是發(fā)布征稿通知,包括確定投稿領(lǐng)域、時間節(jié)點等具體事項。
在投稿領(lǐng)域上,我們的基本原則是領(lǐng)域范圍要適中,具有多樣性和新穎性。比如機器學(xué)習(xí)、自然語言處理應(yīng)用近兩年非常熱門,投稿量很大,有些會議會拆分成預(yù)訓(xùn)練和分類兩塊小領(lǐng)域。另外,我們也會拓展一些小眾的前沿領(lǐng)域,比如自然語言處理的倫理和效率,這些領(lǐng)域是需要鼓勵的,我們希望引導(dǎo)學(xué)者做綠色NLP,做環(huán)境友好的NLP。
征稿通知發(fā)布后,開始邀請高級領(lǐng)域主席,確定EMNLP委員會結(jié)構(gòu)。一般小領(lǐng)域會安排1位領(lǐng)域主席,大領(lǐng)域安排3-4位。先是從世界范圍內(nèi)評選出一批知名的NLP學(xué)者,然后綜合性別平衡、區(qū)域平衡、學(xué)術(shù)與產(chǎn)業(yè)平衡等指標(biāo)進行二次篩選,確保SAC人選的多樣性。在區(qū)域平衡這里,我們覆蓋了三大洲,包括美洲(北美、南美)、亞太(中國、澳大利亞、新西蘭等地區(qū))、歐洲和非洲。然后重新修訂審稿規(guī)范和指南,這是初期準(zhǔn)備階段最重要的一項工作。
征稿流程啟動后,從作者投稿、審稿人評審、author response、最終決策等整個流程我們都會介入。按照領(lǐng)域劃分,我們?nèi)怀绦蛑飨?,大概每人分?000份論文左右(共提交3000+篇)。進入錄用階段后,AC和SAC會向我們提交綜合評價和推薦意見。在這些評審結(jié)果中,我們會重點關(guān)注那些AC和SAC認為“可上可下”的論文,也就說,一篇論文是被頂會收錄,還是進入Findings;是入選Findings,還是被拒,這個主要由我們來決定的。因為高級領(lǐng)域主席只關(guān)注特定領(lǐng)域,我們能從更全局視角,平衡所有論文的情況。
AI科技評論:EMNLP如何評選審稿人和保證審稿質(zhì)量?您如何看待投稿量與審稿人不平衡的問題?
EMNLP 2021有將近4000名審稿人。我們先是參考ACL等其它頂會創(chuàng)建了一個9000人的審稿人池子,大概有4000多人接受了審稿邀請,然后高級領(lǐng)域主席根據(jù)其他客觀指標(biāo)做了一些增刪處理,確定了最終的審稿人名單。
我們邀請的審稿人除了NLP領(lǐng)域知名的教授、學(xué)者,還有一些在讀博士生和碩士生,當(dāng)然他們都需要在頂會上至少發(fā)表3-4篇文章。今年整體評審下來,我們發(fā)現(xiàn)很多初次評審的博士生很活躍,審稿質(zhì)量不比其他人差。
其實不僅是EMNLP,很多頂會都面臨審稿人緊缺的問題。投稿量每年都在增加,如果不增加審稿人,現(xiàn)有審稿人的工作量和壓力就會非常大,也會影響審稿的質(zhì)量。所以在保證專業(yè)能力的基礎(chǔ)上,擴大審稿人的評選范圍是一個不錯的選擇。
今年EMNLP收到3000多篇有效論文,每篇論文會分配3-4名審稿人。我們會根據(jù)審稿人所在的高校、職位、論文發(fā)表數(shù)量等指標(biāo)判定其資深程度,然后合理分配審稿人,基本可以保證每篇論文都有資深學(xué)者參與。
對于評審質(zhì)量,領(lǐng)域主席會進行人工評估,推薦一批優(yōu)秀的審稿人。我們也會采用自動化程序評判審稿質(zhì)量,比如哪篇審稿意見過于簡短,綜合評價是否全面等等。另外,審稿人和領(lǐng)域主席也會評估論文是不是有潛在的倫理風(fēng)險。有潛在風(fēng)險并且作者在論文中沒有給出倫理和影響力聲明的論文會提交給專門的倫理委員會評審,今年接受倫理評審的論文大概有200多篇。
AI科技評論:EMNLP如何匹配審稿人與論文?對于社交媒體上存在的“審稿人不專業(yè)”的質(zhì)疑,您怎么看?
過去很多會議的論文分配方式都是審稿人自己去競標(biāo),這里面存在的一個問題就是,審稿人可能會出于興趣選擇論文,而不是自己的研究方向,這在一定程度上會影響評審質(zhì)量。所以近幾年我們?nèi)∠苏撐耐稑?biāo)的方式,利用NLP技術(shù)去自動化匹配審稿人和論文。
凡是被邀請的審稿人已經(jīng)發(fā)表了不少頂會文章,我們采用的NLP算法會搜集和分析這些文章的標(biāo)題和摘要,并訓(xùn)練出一個語義表示模型,這樣我們就可以了解審稿人擅長的研究方向。用這些特長再去和投稿論文的摘要做匹配,可以最大限度地避免“不匹配”的問題,提高審稿的公平性。
自動分配只是一個基礎(chǔ),領(lǐng)域主席和高級領(lǐng)域主席還會做進一步的調(diào)整,剛剛我們提到,一篇論文的審稿人不能全是資歷淺的年輕人,為了兼顧比例平衡,他們會推薦一些資深學(xué)者,因為不同經(jīng)驗的審稿人看文章的角度是不一樣的。這項工作之所以由領(lǐng)域主席來負責(zé),是因為他們與審稿人是小同行,更能做出精準(zhǔn)的調(diào)整。
另外,論文作者、審稿人以及領(lǐng)域主席對于高級領(lǐng)域主席來說都是公開的,所以他們也會檢查這些人是否來自同一個大學(xué)或者存在合作關(guān)系,避免利益沖突的問題??傊?/span>系統(tǒng)自動分配結(jié)合領(lǐng)域主席調(diào)整的方式分配論文,基本能夠解決審稿人推薦不對口,不公平的問題。
AI科技評論:EMNLP是否存在“SOTA決定論”的現(xiàn)象,就是說只要論文沒有超過現(xiàn)有研究的SOTA就會被拒掉,或者打低分。您如何看待這種性能指標(biāo)對論文質(zhì)量的影響?
我們之前在審稿規(guī)范上就有提出不能搞SOTA論,不能因為這項研究沒有超過現(xiàn)有研究的性能就打低分。在這方面,我們首先定義投稿之前三個月內(nèi)的文章屬于同期工作,作者可能會不了解。另一方面,如果工作只收錄在arxiv上,也不一定需要進行比較,因為它不屬于同行評議的正式出版物。另外,對于那些結(jié)果不錯,數(shù)據(jù)可靠,但方法又不是特別新穎的論文,我們從去年起設(shè)置了Findings類別。所以我們在這方面做了很多的工作,SOTA并不是一個特別強調(diào)的指標(biāo)。
但存在的一個問題是,我們設(shè)計的審稿規(guī)范,不能保證審稿人能夠嚴(yán)格按照規(guī)范去操作,這方面還需要去持續(xù)優(yōu)化。
AI科技評論:今年字節(jié)跳動的一篇ICLR拒稿投了ACL,成了最佳論文,您如何看待這種“轉(zhuǎn)投中稿”的現(xiàn)象?NLP領(lǐng)域四大頂級會議,學(xué)生應(yīng)該如何選投,能否給出一些建議?
很多人知道NLP領(lǐng)域有四大頂會ACL、EMNLP、NAACL和COLING。ACL是公認綜合質(zhì)量最高的國際計算機語言學(xué)會,語言探索與經(jīng)驗方法兼容并收。COLING與ACL類似,是歷史悠久的NLP學(xué)術(shù)會議,但不屬于ACL協(xié)會旗下。NAACL偏重數(shù)據(jù)驅(qū)動方法,與EMNLP風(fēng)格接近,更符合美國學(xué)者的口味。
早期整個人工智能,包括自然語言處理都不是很火熱,ACL每年只有幾百篇的投稿量。后來,基于規(guī)則的機器學(xué)習(xí)方法開始出現(xiàn),自然語言處理領(lǐng)域才開始活躍起來。SIGDAT是ACL協(xié)會下設(shè)的一個語言學(xué)數(shù)據(jù)工作組,他們建議創(chuàng)建一個自然語言處理經(jīng)驗方法會議,也就是EMNLP。
EMNLP對經(jīng)驗方法的定義,包括模型設(shè)計和實現(xiàn),語料庫構(gòu)建與標(biāo)注,還有評價方法。所以定量實驗和數(shù)據(jù)分析,做得多做得好,更容易受到EMNLP認可。我們今年評選的最佳長、短論文都與數(shù)據(jù)集有關(guān)。
雖然會議在定位和設(shè)計上各有特色,慢慢還是會出現(xiàn)一些同質(zhì)化的傾向。因為除了COLING外,EMNLP、ACL和NAACL都是由ACL組織運作的,審稿人、SAC/AC、PC基本來自于同一個群體,各會議在審稿要求和規(guī)范方面也會相互參考和借鑒。所以學(xué)生在投稿的時候,不見得要緊盯一個會議,在DDL之前所有NLP相關(guān)會議都可以去嘗試。對于初次投稿的學(xué)生來說,這個過程中收到的反饋和意見更重要,字節(jié)跳動“轉(zhuǎn)投中稿”的事也印證了這個事情。另外,現(xiàn)在NLP的投稿量越來越多,有了idea和好結(jié)果再不投,可能就被別人搶先了。
AI科技評論:EMNLP被拒論普遍存在共性問題是什么?您認為真正好的論文應(yīng)該具備哪些特質(zhì),能否給學(xué)生一些建議?
整體來看,EMNLP投稿論文的下限相比以前有所提高,因為提交格式不規(guī)范被拒的情況少了很多。現(xiàn)在存在比較重要的問題是:過于關(guān)注SOTA。很多作者覺得只要我的模型有好的結(jié)果,上傳了coding,就可以發(fā)表了。但對于一篇真正好的論文來講,模型性能只是一方面。我們更關(guān)注的是作者的研究動機,文章的論證邏輯,以及實驗方法的新穎性。
作者要明確地提出科學(xué)問題和解決方法,在這之前,他們需要做好充分的文獻調(diào)研,我們發(fā)現(xiàn),很多作者提出的實驗方法其實早就被驗證過了,所以研究的創(chuàng)新性、新穎性是很關(guān)鍵的。我們還要看作者的邏輯表達,是否能把以往的工作梳理清楚,從分析、研究到驗證的整個過程是否嚴(yán)謹(jǐn),有理論支撐。另外,在實驗環(huán)節(jié),我們不僅看實驗結(jié)果,更關(guān)注設(shè)計過程是否合理,實驗結(jié)果是否充分可靠。
我經(jīng)常跟自己組里的學(xué)生說,不要覺得科研論文是記敘文,寫在敘事。既然是“論”文,就一定要以說理為主,要以理論和實驗為依據(jù),在有限的篇幅內(nèi)把研究觀點立起來。實驗只是驗證結(jié)論的一個手段,不能只關(guān)注SOTA,從發(fā)現(xiàn)問題到解決問題的邏輯演繹更為重要。
AI科技評論:EMNLP獲獎?wù)撐氖侨绾芜M行評選的,今年評選過程中是否有一些有趣的故事?
其實獲獎?wù)撐脑u選工作在初級審稿階段就已經(jīng)開始了。審稿人、領(lǐng)域主席到高級領(lǐng)域主席都會在審稿表單中推薦最佳論文、,這些建議會提交給我們進行二次篩選,差不多篩選出一半后再提交給最佳論文評選委員會,由他們做最終的決定。
我印象比較深的是情感分析領(lǐng)域推薦的一篇論文,獲得了今年的最佳短文。當(dāng)時200多篇論文中,負責(zé)相關(guān)領(lǐng)域的SAC只推薦了這一篇,也沒有推薦最佳長文。審稿人、領(lǐng)域主席和高級主席都認為這篇是最佳短文的候選。這項研究提出了一個幽默感知模型CHoRaL,用來檢測Facebook上的消息貼是否幽默。他們收集了 78.5 萬篇與 COVID-19 相關(guān)的帖子,通過從帖子中提取語義詞匯和情感特征,分析社交媒體的幽默表達,還創(chuàng)建了帶標(biāo)簽的大規(guī)模數(shù)據(jù)集。
看了這篇論文后,我們認為在深陷疫情漩渦的背景下,從“幽默”角度切入,提高語言理解能力的研究主題非常新穎,多少也有些苦中作樂的意味。因為今年疫情在全球范圍內(nèi)仍造成了不小的沖擊,包括今年EMNLP會議采用的也是線上線下結(jié)合的方式,很多學(xué)者因為疫情無法到現(xiàn)場參會。
AI科技評論:Findings和ARR的實施效果如何?今年在審稿方面還做了哪些方面的改進?
每年EMNLP會議都會總結(jié)往年經(jīng)驗,做一些新的嘗試和改進。比如去年EMNLP提出Findings類別,接收那些不足以被頂會錄用,但實驗方法有創(chuàng)新,實驗結(jié)果好的論文。今年是引入ARR滾動審稿機制,讓論文投稿和評審更及時高效。整體來看,F(xiàn)indings共接收了419篇高質(zhì)量的論文,ARR投稿量截至10月份已經(jīng)有上千篇,并且在明年的ACL、EMNLP等會議中廣泛使用。
在審稿規(guī)范方面,我們今年重新修訂了短論文的評審標(biāo)準(zhǔn),以前很多作者抱怨短文的拒稿率太高,可能審稿人覺得研究方法不夠新穎,實驗不夠透徹。今年我們要求短文不能采用長文的評選標(biāo)準(zhǔn),短論文只要問題聚焦,驗證了方法的有效性,即使是階段性的貢獻也是有價值的。
另外其他會議也有相應(yīng)的改進,比如ACL-IJCNLP 2021開設(shè)了審稿人培訓(xùn)系統(tǒng);NAACL 2021改善了倫理評審機制,不過這種改進都是漸進式的。
AI科技評論:您認為碩博生要在頂會發(fā)表論文,需要掌握哪些能力?
很多學(xué)生都希望在科研上做出一些有影響力的工作。做科研的第一步要學(xué)會發(fā)現(xiàn)問題。其實,博士與碩士在科研能力的培養(yǎng)和要求上有很大的不同,碩士階段可能我們只需要閱讀大量文獻,在前人研究的基礎(chǔ)上去探討一些新問題,但博士生要獨立地擴展一個新的研究領(lǐng)域,要自己去想idea。
其實很多時候,不是研究問題很難找,是我們?nèi)鄙勹b別問題的能力,我經(jīng)常告訴學(xué)生,讀論文要學(xué)會“挑刺”,你不能順著作者的邏輯,要換個角度嘗試去反駁它,就像審稿人一樣,要能夠找出這篇論文的優(yōu)缺點、有哪些改進的空間,這樣才能在相對成熟的研究中發(fā)現(xiàn)新問題。另外,我們很多學(xué)生在碩博期間會去工業(yè)界實習(xí),除了為將來職業(yè)規(guī)劃做準(zhǔn)備外,從實際的落地場景中也更容易挖掘一些感興趣的問題。
AI科技評論:從進入NLP領(lǐng)域以來,您的研究方向經(jīng)歷了哪些變化,現(xiàn)在的主要研究方向和成果是什么?
我在讀博的時候恰好趕上了NLP走向數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)的過程,經(jīng)歷了從一開始的統(tǒng)計方法,到基于規(guī)則的方法,再到現(xiàn)在的深度學(xué)習(xí)。其實做科研就是這樣,只要技術(shù)一直在更新,你就要一直去追熱點方向。當(dāng)然如果能夠像Bengio, Hinton那樣引領(lǐng)熱點是最偉大的。我現(xiàn)在的研究方向主要與社會媒體有關(guān),包括趨勢分析、情感分析、可理解分析以及內(nèi)容推薦。
除了社會媒體,我們也在做新聞方面的NLP,一開始做這個方向主要是興趣,我自己就是深度網(wǎng)民,以前經(jīng)常在BBS、天涯,新浪微博這些社區(qū)潛水。當(dāng)然從科研角度來講,社交媒體上有很好的數(shù)據(jù)資源,我們利用這些天然的數(shù)據(jù)訓(xùn)練語言模型,測試它在不同的領(lǐng)域的魯棒性,在遷移學(xué)習(xí)方面有更多探索的空間。
另外,深度學(xué)習(xí)把我們從特征挖掘時代帶到了結(jié)構(gòu)工程時代,這個過程帶來了很多新的問題,比如如何選擇適配特殊任務(wù)特殊數(shù)據(jù)集的結(jié)構(gòu);可理解分析如何增加模型的可信賴性;如何更好地判斷模型是否過擬合等。所以,可解釋性也是我們目前研究的重點方向。
AI科技評論:您認為NLP發(fā)展經(jīng)歷了哪幾個重要的階段,當(dāng)下的研究趨勢和面臨的瓶頸是什么?
1950 年艾倫·圖靈在《計算機與智能》論文中提出機器翻譯算法,第一次研究了自然語言的形態(tài)學(xué)、句法和語義問題。這項成果被看做是自然語言發(fā)展的源頭。在這之后,如果回溯整個NLP發(fā)展歷程,大概可以分為三階段;第一個階段是上個世紀(jì),NLP在機器翻譯領(lǐng)域經(jīng)歷了漫長的發(fā)展歷程。第二階段是本世紀(jì)初,基于規(guī)則和數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)技術(shù)開始興起,NLP進入蓬勃發(fā)展期;第三階段就是現(xiàn)在以深度學(xué)習(xí)為主的NLP時代。
細分下來,目前整個NLP發(fā)展的熱點趨勢,可以總結(jié)為幾個關(guān)鍵詞:預(yù)訓(xùn)練,多模態(tài),低資源、低功耗、可解釋,科技向善。大火的GPT-3就是預(yù)訓(xùn)練模型,這項研究獲得了NeurIPS 2020最佳論文,EMNLP-IJCNLP 2019 的最佳論文也與預(yù)訓(xùn)練有關(guān)。之所以成為學(xué)術(shù)熱點,主要就是它在ImageNet等大規(guī)模數(shù)據(jù)集上達到了很高的性能水平。然后是可解釋性,不僅是NLP領(lǐng)域,整個以深度學(xué)習(xí)為核心的人工智能都面臨模型可解釋的問題,如今AI開始大規(guī)模走向落地,有關(guān)可解釋的研究也越來越緊迫。這些熱點研究方向百花齊放,但現(xiàn)階段都都存在一些難以逾越的瓶頸,比如預(yù)訓(xùn)練在工業(yè)界的落地開銷太大,如何在醫(yī)療、金融等領(lǐng)域發(fā)揮實際價值,能否實現(xiàn)小樣本學(xué)習(xí)等等。
AI科技評論:EMNLP從最早的興趣小組成為了僅次于ACL的第二大NLP會議,投稿量也在逐年上漲,華人學(xué)者連續(xù)多年占據(jù)投稿量榜首,您認為EMNLP的崛起對NLP發(fā)展有哪些作用?
不止是EMNLP,我覺得各類NLP頂會對自然語言處理的發(fā)展起著重要的引領(lǐng)性作用。從EMNLP來說,我們會試圖挖掘有價值的研究,引導(dǎo)學(xué)者形成正確的價值觀,推動NLP的全面發(fā)展。比如通過開設(shè)自然語言處理效率、可解釋性等小眾領(lǐng)域,促進研究的多樣性;通過制定各種規(guī)范和指南,影響審稿人和作者的價值判斷;通過最佳論文評選,為研究者樹立標(biāo)桿。
另外,今年在會議安排上,我們邀請了MIT腦與認知科學(xué)系的Evelina Fedorenko教授,就大腦的語言系統(tǒng)做相關(guān)主題報告,他們的工作有助于推動NLP與多學(xué)科的交叉融合。同時我們還邀請澳大利亞查爾斯達爾文大學(xué)的Steven Bird教授,分享用NLP幫助新西蘭土著居民的科研項目,傳遞科技向善的理念。所以從整個人工智能圈來講,希望引導(dǎo)學(xué)者利用NLP技術(shù)去做一些真正提升社會價值的工作。
下一屆EMNLP程序主席
AI科技評論了解到,EMNLP組委會已公布下一屆會議的程序主席,其中,西湖大學(xué)張岳教授位列其中,這是自EMNLP成立以來第四位內(nèi)地學(xué)者出現(xiàn)在大會程序委員會的行列。
作為國內(nèi)早期從事自然語言處理研究的學(xué)者之一,張岳老師研究方向側(cè)重自然語言的解析、生成和翻譯、文本挖掘、機器學(xué)習(xí),已發(fā)表相關(guān)國際期刊論文30余篇,CCF列表 A、B 類國際會議論文百余篇,獲得過CCF2018中文計算與自然語言處理青年新銳獎、SemEval2020(honorable mention)COLING2018和IALP2017最佳論文獎等獎項。
盤點EMNLP歷年的組委會成員,除了張岳和黃萱菁教授外,還有字節(jié)跳動李航博士、北京大學(xué)萬小軍等國內(nèi)學(xué)者,以及新加坡管理大學(xué)Jing Jiang、德克薩斯大學(xué)Vincent Ng等多名華人學(xué)者出任EMNLP程序主席。
張岳老師入選EMNLP2022程序主席,意味著他本人及其團隊的學(xué)術(shù)成就和地位得到了國際同行的認可,而越來越多的華人面孔出現(xiàn)國際會議的組委會行列,標(biāo)志著我國計算語言學(xué)和自然語言處理研究領(lǐng)域在國際學(xué)術(shù)舞臺擁有更多的話語權(quán)。
雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。