0
NLP 中的大多數(shù)成功案例都是關(guān)于監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí)的。從根本上說,這意味著我們的解析器、情感分類器、QA 系統(tǒng)和其他一切都和訓(xùn)練數(shù)據(jù)一樣好?;谶@一事實,數(shù)據(jù)和模型工程,對于 NLP 進一步的發(fā)展來說同樣重要。這就是為什么頂級會議 ACL 通常還專設(shè)了一個「資源和評估」通道,并頒發(fā)最佳資源論文獎。
然而,創(chuàng)建模型和資源這兩項任務(wù)所需要的技能集并不相同,往往也來自不同的領(lǐng)域,這兩個領(lǐng)域的研究者往往也對「論文應(yīng)該是怎樣的」抱有不同的期望。這就使得審稿人的工作進入一個雷區(qū):如果期望得到一個橘子結(jié)果得到的卻是一個蘋果,那么這個蘋果看起來就是錯的。以雙方最大的善意來看,論文被拒絕的原因可能并非論文實際存在任何缺陷,而是它的基本方法論「不合適」。
對于這一點比較失望的作者們在線上或線下展開的討論,是這篇文章的寫作緣由。有一件事很明顯:如果作者和審稿人不能就「論文應(yīng)該是怎么樣的」達成一致,那么提交論文就是浪費彼此的時間。我希望本文能幫助那些使用數(shù)據(jù)的人,更好地理解那些制作數(shù)據(jù)的人,并對他們的論文做出更好的評價。
讓我們從消除一些關(guān)于資源論文的誤區(qū)開始。不幸的是,下面所有引用都來自 ACL 審稿人對論文的真實評論!
誤區(qū) 1:資源論文不是科學(xué)
也許這一觀點最有代表性的例子來自于 Rachel Bawden。ACL 2019 年的一位審稿人對他這篇以機器翻譯為媒介的雙語對話資源論文提出了以下意見:
本文主要是對語料庫及其集合的描述,幾乎不包含科學(xué)上的貢獻。
鑒于 ACL 2019 有一個專門的「資源和評估」領(lǐng)域,因此,這種觀點的提出看起來甚至是不可能的,而出現(xiàn)在評論中更是不可接受!需要明確的是,資源建設(shè)至少以三種方式增加了知識:
它們是從建模中獲得任何知識的先決條件;
除資源外,可能還有注釋準則或新的數(shù)據(jù)收集方法;
基于注釋的迭代準則開發(fā)增加了對長尾現(xiàn)象的了解。
論文鏈接:https://hackingsemantics.xyz/2020/reviewing-data/#bawden2019diabla
誤區(qū) 2:資源論文更適合 LREC 或研討會
大多數(shù) ACL 會議都提供一個專門的「資源和評估」通道,但是資源論文的作者通常被建議將他們的工作提交給語言資源和人類語言技術(shù)評測方面的國際頂級會議 LREC 或一些專題研討會。我們再次借用下 Rachel Bawden 在 ACL 2019 中論文評論里面的一句話:
我認為這篇文章不適合 ACL。它非常適合 LREC 和特定的機器翻譯會議和研討會。
人們普遍認為 NLP 系統(tǒng)工程相關(guān)的工作比資源相關(guān)的工作更有聲望,而這一觀點可能正是與此有關(guān)。由于 ACL 是頂級會議,因此,資源論文應(yīng)該被提交給研討會和級別較低的 LREC 會議。
這種觀點非常不公平,甚至?xí)m得其反。首先,NLP 工程論文每年通常都有好幾次機會提交給 NLP 領(lǐng)域的主流頂級會議。而 LREC 是唯一一個專門討論資源的會議,每兩年才舉辦一次。
其次,NLP 的進展取決于系統(tǒng)和基準的共同演進。NLP 基準并不完美,當我們在其中任何一個基準上停留太久時,我們很可能會開始針對錯誤的事情進行優(yōu)化,發(fā)表許多 SOTA 論文,但卻并沒有取得真正的進展。因此,開發(fā)更具挑戰(zhàn)性的基準與建模工作同等重要。我們至少可以做到的是,在頂級會議上發(fā)表此類文章來推動這件事。此外,將數(shù)據(jù)和模型各自置于不同的會議,不太可能改善這兩個社區(qū)之間的思想交流。
誤區(qū) 3:新資源必須大于競爭
針對這一點,我自己在 ACL 2020 上收到了以下評論:
本文提出的新語料庫并不比現(xiàn)有語料庫大。
針對資源論文的這一評論,其實就相當于在評審系統(tǒng)論文以「如果不是 SOTA,則拒絕」來判定一篇論文的生死。測試性能提供了一種簡單的啟發(fā)式方法來判斷新模型的潛在影響,與此同時數(shù)據(jù)集大小成為其實用性好壞的指標。在這兩種情況下,來自工業(yè)界和資金雄厚的實驗室的論文都有優(yōu)勢。
由于數(shù)據(jù)量往往與數(shù)據(jù)質(zhì)量成反比,因此這種態(tài)度隱晦地鼓勵眾包并阻礙專家注釋。上述提到的向 ACL 2020 提交的論文提供了一個具有專家語言注釋的資源,其中存在著更大、噪聲更多的眾包替代方案。這篇論文特別討論了為什么直接比較這些資源的大小是沒有意義的。不過,其中一位評審人認為,新的語料庫比眾包語料庫要小,這顯然降低了它的價值。
誤區(qū) 4:資源必須是英語或跨語言較大的
語言的數(shù)量似乎與數(shù)據(jù)集的大小具有大致相同的功能:一種判斷其潛在影響的啟發(fā)式方法。以下是 Robert Munro 從另一篇 ACL 論文評論中引用的一段話:
總的來說,沒有好的跡象表明其他語言對能取得好的結(jié)果。
這是一個絕對有效的評論,它適用于大多數(shù)只關(guān)注英語卻探討建?!刚Z言」(#BenderRule) 的 NLP 論文。因此,如果這一觀點被認可,那么每一篇論文都要求必須是跨語言的研究。然而這一觀點,往往是由非英語資源論文的評審人提出的。
其結(jié)果是,這種工作正在被邊緣化,并受到了阻礙。我有幸參加了 ESSLLI 2019,并與一些出色的拉脫維亞文研究人員進行了交流,他們研究針對自己的語言的 NLP 系統(tǒng)。他們告訴我,他們放棄了主要的 ACL 會議,因為他們的工作范圍太過狹窄,大多數(shù)人沒有興趣。這對每個人來說都是一個損失:要把對英語有用的想法轉(zhuǎn)移到其他語言上絕非易事,這些拉脫維亞文研究人員想出的訣竅可能在全球范圍內(nèi)都有很大的用處。此外,如果我們在 NLP 社區(qū)的目標是建立「人類語言」的模型,我們不太可能只關(guān)注其中一種語言就獲得成功。
將語言數(shù)量與論文的潛在影響混為一談,會給跨語言研究帶來一個有趣的結(jié)果:他們擁有的語言越多,在審稿人眼中就越好。
然而,如果在所有這些語言中執(zhí)行任何有意義的分析,那么語言數(shù)量通常會隨著作者列表長度的增加而增加:例如有一篇關(guān)于通用依賴性的論文就有 85 位作者(論文地址:https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-1548 ),該論文涉及的語言數(shù)量就比較多。
一個普通的機器學(xué)習(xí)實驗室沒有辦法做這樣的事情,所以為了取悅審稿人,他們使用了機器翻譯來擴增語言數(shù)量,甚至在類型聲明中也使用了機器翻譯(以「BERT Is Not an Interlingua and the Bias of Tokenization」論文為例:https://doi.org/10.18653/v1/D19-6106 )。在這種情況下,語言數(shù)量并不能完全代表論文的整體質(zhì)量。
誤區(qū) 5:已有數(shù)據(jù)集太多了
針對這一觀點,以下是 EMNLP 2019 論文評論中的一個例子:
本文提出了另一種問答測試。
為了保證公平性,這位審稿人隨后提到,如果一個新的基準提供了一些全新的方法,它可能會擁有一席之地。不過,其隱含的假設(shè)是,資源論文應(yīng)該有一個上限,有大量的問答數(shù)據(jù)多少會適得其反。
有一種觀點認為,有太多基準會稀釋社區(qū)的努力。然而,只有當有一個基準本質(zhì)上比所有其他基準都好時,這一點才會成立。如果不是這樣,只關(guān)注一個數(shù)據(jù)集可能會適得其反。有了大量的數(shù)據(jù)集,我們至少可以進行更好的泛化研究。例如,在 SQuAD、CoQA 和 QuAC 上訓(xùn)練的模型不會相互轉(zhuǎn)移,即使這三個數(shù)據(jù)集都基于 Wikipedia(論文地址:https://arxiv.org/pdf/1809.10735.pdf)。
有趣的是,對于系統(tǒng)論文也可以提出同樣的觀點:在下一次突破之前,社區(qū)應(yīng)該對 BERT 進行多少增量修改是否應(yīng)該有一個上限?(相關(guān)論文地址:https://arxiv.org/pdf/2002.12327.pdf)
誤區(qū) 6:每一篇 ACL 資源論文都必須隨附 DL 實驗
以上所有的謬論都很容易被駁斥,因為它們反映了邏輯上的謬誤和一種研究傾向——不喜歡與主流 NLP 系統(tǒng)論文不一樣。但其中有一個似乎與社區(qū)真正的分歧相對應(yīng):
繼續(xù)進行 #NLProc 同行評審辯論!
到目前為止,最棘手的問題是:ACL 是否應(yīng)該要求資源論文進行一些概念驗證的應(yīng)用?
支持方:沒有 ML 實驗=>就投稿到 LREC
反對方:超新的方法論/高影響力的數(shù)據(jù)就足矣
你的觀點是什么?
看過幾十條評論,顯而易見人們在聽到「資源論文」時,很明顯會有不同的想法。是否需要進行 DL 實驗,甚至是否合適,都取決于貢獻的類型。
NLP 任務(wù)/基準:主要觀點通常是,新基準比以前的基準更具挑戰(zhàn)性。這一說法顯然必須得到實驗結(jié)果的支持。
計算語言資源(詞匯、詞典、語法):其價值在于從某些角度提供盡可能完整的詳細語言描述。類似 VerbNet 這樣的語言資源,并不是為任何特定的 DL 應(yīng)用程序創(chuàng)建的,因此不應(yīng)該要求包含任何這樣的實驗。
介于這兩個極端之間的,是可以很容易地構(gòu)建為 DL 任務(wù)/基準的資源類型,但還不清楚它們是否應(yīng)該是必需的,甚至是最好的選擇。具體而言,這涉及:
非公開數(shù)據(jù)的發(fā)布:以前非公開的數(shù)據(jù)資源,如匿名醫(yī)療數(shù)據(jù)或來自私人公司的數(shù)據(jù)。作者的貢獻是使發(fā)布成為可能的法律或行政工作。
具有語言注釋的資源(樹庫,共指,照應(yīng),時態(tài)關(guān)系等):這些資源的質(zhì)量傳統(tǒng)上是由注釋之間的一致性來衡量的。作者的貢獻是注釋工作或注釋方法。
在這兩種情況下,數(shù)據(jù)可能以多種不同的方式使用??梢灾惶峁藴实挠?xùn)練/測試拆分,并將資源作為新任務(wù)或基準來呈現(xiàn),從而使某些實踐者的生活變得更輕松——這些實踐者只想尋找新任務(wù)來設(shè)置自己喜歡的算法。但這可能不是唯一用來思考新數(shù)據(jù)的方法,甚至不是最好的方法。這時,這場討論演變成了一場不科學(xué)的拔河比賽,大致是這樣的:
工程師:這個數(shù)據(jù)是給我的嗎?如果是,我想看看相關(guān)實驗,證明這是可以學(xué)習(xí)的。
語言學(xué)家:這實際上是關(guān)于語言而不是深度學(xué)習(xí)的數(shù)據(jù)。但如果你愿意,歡迎使用這些數(shù)據(jù)。
在這一灰色地帶,我懇請領(lǐng)域主席定好他們的期望,并向作者和審稿人明確說明這一點。否則我們會陷入一個雷區(qū):一些審稿人認為基線實驗是一項硬性要求,但作者沒有預(yù)料到這一點。不然作者們提交的論文對作者本身以及審稿審得疲憊不堪的審稿人和領(lǐng)域主席來說都是浪費時間。而他們明確說明這一點,則可以很容易地防止這種浪費。
就我個人而言,我反對將基線實驗作為硬性要求,理由如下:
NLP 是一個跨學(xué)科的項目,我們需要盡可能得到來自各個學(xué)科的所有幫助。要求每一次提交都要用機器學(xué)習(xí)方法打包,這不僅會阻礙擁有不同技能的研究者的數(shù)據(jù)和想法之間流動,還會影響語言學(xué)、社會學(xué)和心理學(xué)等領(lǐng)域之間的數(shù)據(jù)和思想流動。
包含這樣的實驗可能不會取悅?cè)魏我环健H绻髡卟皇潜仨氃谡撐闹邪€的話,會給語言學(xué)家們留下一些本可以解決的問題。工程師們會變得只關(guān)注基線部分,然而最終發(fā)現(xiàn)基線部分并沒有那么引人關(guān)注。
以我的一篇論文作為具體案例,這篇論文提出了一個新的情感標注方案,一個新的數(shù)據(jù)集,并展示了一些基線實驗(論文地址:https://www.aclweb.org/anthology/C18-1064.pdf)。審稿人指出的一個不足之處是:
使用域內(nèi)單詞嵌入獲得的結(jié)果不足為奇。一個眾所周知的事實是,域內(nèi)單詞嵌入相對于一般單詞嵌入更具信息性。
我們對域內(nèi)嵌入的評論只是簡單地描述了結(jié)果表,并無意作為啟示。這篇論文的貢獻在于資源和方法,但在文中出現(xiàn)的這些實驗顯然引發(fā)了審稿人的錯誤預(yù)期。雖然最終我們的論文被接收了,但其他很多人可能掉進了這個陷阱。
我適合當這篇論文的審稿人嗎?
蘋果是蘋果,橘子是橘子,兩者都有自己的優(yōu)點。因為資源論文不是系統(tǒng)論文而拒絕它,是沒有意義的。要寫一篇建設(shè)性的評論,首先,你需要從與作者同樣的方法論角度來看待它的貢獻。如果有不匹配的地方,也就是說,如果你被分配去審一篇貢獻類型不在你的研究范圍內(nèi)的論文,最好讓領(lǐng)域主席重新分配。
以下是資源論文的一些主要類型,以及撰寫高質(zhì)量評論所需的專業(yè)知識:
眾包NLP訓(xùn)練/測試數(shù)據(jù)集:基礎(chǔ)眾包方法論的知識、對潛在問題(如非自然信號)的認識(論文地址:https://arxiv.org/pdf/1803.02324.pdf )和注釋者偏差(論文地址:https://arxiv.org/abs/1908.07898 ),以及此任務(wù)的其他可用數(shù)據(jù)集。理想情況下,你至少自己構(gòu)建了一個此類資源。
帶語言注釋的語料庫(語法、復(fù)指、共指、時態(tài)關(guān)系):有關(guān)語言理論和注釋經(jīng)驗的知識,注釋可靠性估計,以及這一特定子領(lǐng)域的現(xiàn)有資源。理想情況下,你至少自己構(gòu)建了一個此類資源。
語言知識資源(語法、詞典、詞匯數(shù)據(jù)庫):語言理論的其他知識和所有其他相關(guān)資源。理想情況下,你至少自己構(gòu)建了一個此類資源。
那么,非英語資源呢?我們不能指望總是有這樣一批審稿人,他們都是該領(lǐng)域的專家,而且都會說一種特定的稀有語言,所以答案很可能是「分工」。當我們以審稿人的身份注冊會議時,除了專業(yè)領(lǐng)域外,我們還可以指定語言。如果一篇資源(或系統(tǒng))論文不是用英語撰寫的,那么除了目標領(lǐng)域的兩位專家外,領(lǐng)域主席最好能找到至少一位會說這種語言的審稿人。不懂這門語言的人仍然可以評估能判斷部分的貢獻(方法、分析、與其他工作的有意義的比較)。只要領(lǐng)域主席在你的評論中清楚地知道論文的哪些部分超出了你的范圍,都將能夠做出明智的決定,并在必要時招募額外的審稿人。當然,作者應(yīng)該通過添加注釋來幫助應(yīng)對這一問題。
在 ACL 中,什么樣的資源論文才是有價值的?
一旦你確定你看待這篇論文的角度與作者的方法論一致,你就需要判斷它的實際貢獻。當然,并不是所有的資源論文都值得發(fā)表在一個頂級的 NLP 會議上!對于系統(tǒng)和資源論文來說,接收標準并沒有太大的不同。大多數(shù)會議都對這種方法的新穎性、貢獻大小、潛在影響的大小感興趣。在 ACL 中具有價值的論文,無論是任何一種類型,論文作者都需要對其中的至少一項進行有力的論證。
下面是一些符合(或不符合)這些標準的資源論文類型的示例。
高新穎度:重大概念創(chuàng)新
示例:新任務(wù),新注釋方法;
反例:使用現(xiàn)有框架收集更多數(shù)據(jù)或更新現(xiàn)有資源,或只是將現(xiàn)有資源轉(zhuǎn)換為其他語言。
高影響力:解決一個普遍存在的問題,提出具有高度概括性的新方法(跨語言或任務(wù))。
示例:發(fā)現(xiàn)影響多個數(shù)據(jù)集的偏差,發(fā)布時間敏感的數(shù)據(jù)(例如,有關(guān)冠狀病毒最新研究數(shù)據(jù)集);
反例:減小由一個特定數(shù)據(jù)集中注釋器準則引起的特定偏差。
高質(zhì)量、豐富性或規(guī)模:重要的公共數(shù)據(jù)發(fā)布,能在語言描述,數(shù)據(jù)質(zhì)量或資源量方面提供明顯的優(yōu)勢。
示例:語言數(shù)據(jù)庫(如 VerbNet),帶有語言注釋的語料庫,在特定情況下有機收集的數(shù)據(jù)(如匿名醫(yī)療數(shù)據(jù));
反例:沒有明顯優(yōu)勢的噪聲數(shù)據(jù),不公開的數(shù)據(jù)。
重申一下:只要滿足其中一個標準,一篇論文就是值得發(fā)表的:一個狹窄的問題可以用一種非常新穎的方式來解決;如果噪聲數(shù)據(jù)集非常完整,那么會產(chǎn)生很大的影響;如果論文表明了為英語版本開發(fā)的技術(shù)完全無法推廣,僅僅簡單地將資源改寫為另一種語言也可能會引起巨大轟動。
但作者確實需要證明至少有一個標準適用性很強,并使審稿人相信沒有嚴重的缺陷(例如,通過丟棄大部分數(shù)據(jù)來放大內(nèi)部注釋器的一致性)。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
相關(guān)參考文獻詳見原文: https://hackingsemantics.xyz/2020/reviewing-data/
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。