0
雷鋒網(wǎng) AI 科技評論按:近日 ACL( Association for Computational Linguistics,計算語言學(xué)協(xié)會)對自己的投稿、評審、引用規(guī)則進行了修訂,其中最具爭議的一項是要求 ACL 下屬會議(ACL、EMNLP、NAACL - HLT)的匿名投稿論文, 在會議投稿截止日期前的一個月內(nèi)不允許上傳到非匿名預(yù)印本平臺(比如 arXiv);直到論文評審結(jié)果公布后才可以公開上傳(揭開匿名)。
這一要求顯然再次引發(fā)了對于「雙盲評審的必要性」和「如何高效率地執(zhí)行雙盲評審」的討論,畢竟一段時間之前 ICLR 2018 的匿名論文投稿在評審結(jié)果出爐前就大批量暴露了論文作者,已經(jīng)出現(xiàn)了一些批評的聲音。剛好 ACM 通訊近日的一篇文章就研究了論文接受率和匿名的關(guān)系,雷鋒網(wǎng) AI 科技評論先帶大家重新認(rèn)識一下前一個話題。
總的來說,在一場控制性實驗中,ACM 網(wǎng)絡(luò)搜索和數(shù)據(jù)挖掘國際會議(WSDM)委員會發(fā)現(xiàn)當(dāng)評審者知道論文作者信息時,評審者更傾向于推薦名作者或者頂尖機構(gòu)的論文。語言演變會議(Evolution of Languages Conference)委員會則發(fā)現(xiàn)當(dāng)評審者知道作者信息時,男性一作的得分會比不知道時高 19%,女性一作則低 4%。
種種研究表明偏見會影響任何人,無論評審者的性別或種族。而雙盲評審則可以弱化這種影響,減少歧視。這也使得雙盲評審成為評價系統(tǒng)的非常具有建設(shè)性的一部分,使得論文評審結(jié)果更加的忠于論文質(zhì)量。但即便是雙盲評審中,審稿人猜測論文作者的嘗試仍然會影響評審結(jié)果。
匿名的效果
就 ASE、OOPSLA、PLDI 這三個會議的數(shù)據(jù)來看,70%~86% 的評審者在提交評審結(jié)果前并不去猜論文作者是誰,這說明他們不知道也不在乎到底是誰寫了這些論文。下圖顯示了每個會議的評價者、論文以及評論的數(shù)量。還顯示了作者身份猜測結(jié)果的分布情況。
每篇論文至少有三條評論
假如評審者在評論中猜測論文作者,他們大概率會猜對(ASE 72% 的猜測能夠猜對,OOPSLA是 85%,PLDI 是74%)。不過實際情況中,絕大多數(shù)的評審意見中并沒有真的包含正確的猜測結(jié)果(ASE 90%,OOPSLA 74%,PLDI 81%)。
相比于普通評審者,專家們是否更喜歡猜作者并且容易猜對呢?下圖顯示了相關(guān)研究得出的結(jié)論。
其中 X 代表專家,Y 代表研究學(xué)者,Z 代表普通學(xué)者(均為自評)。如上圖所示,「專家們」顯然更喜歡預(yù)測,然而預(yù)測準(zhǔn)確性卻沒有比另兩類人高多少(PLDI 的 Z 類評審除外)。所以結(jié)論是那些自認(rèn)專家的更加喜歡猜測論文作者,正確性卻不值一提。
第二個問題,論文「假」匿名頻繁嗎?有些作者不匿名可能是因為匿名效果太差。這種「假」匿名的論文反而會引來更多猜測。下圖顯示了相關(guān)研究得出的結(jié)論。
上圖顯示論文猜測的分布(柱形下部的陰影部分代表著猜測正確率)。其中絕大多數(shù)(26%~30%)論文只有一位評審者會猜測它的作者。研究還顯示論文作者被猜測的越多那么猜不中的概率就越低。綜合了三門會議數(shù)據(jù)的 χ2分布顯示,猜測一次、兩次、3+次的論文的作者猜中率在統(tǒng)計學(xué)上有顯著差異(p≤0.05),這種差異在 OOPSLA 上也表現(xiàn)顯著。直接比較各會議的猜測率(均使用單尾 Z 檢驗)他們還得出了一些結(jié)論:對于 OOPSLA 來說,它的一猜正確率與其他兩門會議有很大差別;對于 PLDI 來說,它的一猜正確率和 3+猜正確率的也有統(tǒng)計學(xué)差異,這表明少數(shù)論文可能很容易被猜中作者;對于 ASE 來說,只有 1.5% 的論文被猜測作者的次數(shù)超過三次,PLDI 的同類數(shù)據(jù)是13%。另外,他們還發(fā)現(xiàn),PLDI 中 40% 的猜測只針對 13%的論文,這意味著這要改善這一小部分論文的匿名情況就可減少很多猜測。由于目前這三門會議剛剛采用雙盲評審,可能存在匿名程度低的情況,隨著作者們的匿名經(jīng)驗越來越豐富,之后的匿名效果會越來越好。
第三個問題,那些被猜中作者的論文更容易被接收嗎?他們調(diào)查了論文接收率與評審者的猜測的關(guān)系以及與猜中率的關(guān)系。結(jié)果如下圖所示。
上圖顯示 ASE 的論文接收率似乎不受猜測行為的影響。而 OOPSLA 和 PLDI 的未被猜測的論文的接受率較低,相較于那些至少猜中一次的則下降更加明顯。尤其值得注意的是,PLDI 未被猜測的論文相較于全部猜錯的論文更加不容易被接收(OOPSLA也存在這種情況)。這種情況可能是因為 OOPSLA 和 PLDI 的評審者們更加青睞有名的研究員,他們相信高質(zhì)量的工作更可能來自名研究員,所以也更愿意去猜作者。
最后一個問題,評審者們是怎么「去匿名化」的?曾有人詢問 OOPSLA 和 PLDI 的評審者,作者信息是否是從引用中泄露出的。在所有帶猜測的評論中,OOPSLA 37%(占全部評論的 11%)和 PLDI 44%(占全部評論的 11%)的評論承認(rèn)作者信息是根據(jù)引用推斷的。ASE 的評審者們也被問及是什么指引了他們的猜測,75 人是根據(jù)論文主題,31 人是根據(jù)之前的工作、數(shù)據(jù)集和源代碼,21 人是因為之前已經(jīng)見過草稿,3 人是根據(jù)先前的談話。該結(jié)果表明有一些匿名曝光是不可避免的。還有一些評審者在搜索相關(guān)工作用作評價依據(jù)時搜索到了當(dāng)前論文的 GitHub 庫或項目網(wǎng)站。另一種情況就是該篇論文與作者之前的工作聯(lián)系過于緊密,也難以真正匿名。雖然匿名困難,但現(xiàn)在也有不少改善匿名效果的方法。比如,增加學(xué)界對于匿名化的熟悉程度,確立一致的規(guī)范和明確的指導(dǎo)原則等。
而在程序委員會的內(nèi)部會議上,主席就多次聽到某成員確信另一個成員就是論文的作者的言論,然而事實證明他猜錯了,這也反映了部分評審者過于自信,他們的去匿名推理并不一定正確。
程序委員會主席的觀點
針對以上的結(jié)果,三個會議的程序委員會主席仍然支持繼續(xù)使用雙盲評審,他們都認(rèn)為雙盲評審減輕了潛在偏見的影響,這也是雙盲評審的目的。不過執(zhí)行的效果以及其中的挑戰(zhàn)仍然不能掉以輕心。有一些程序委員會成員也持有同樣的觀點,這或許表明他們認(rèn)為引入雙盲之后他們認(rèn)為自己的評審中的偏見變少了。
程序委員會主席們對于揭示論文作者的時間點看法不一,比如在評審后或PC會議前。其他的分歧也有一些,比如 PLDI 的主席強烈建議全部會議都使用雙盲評審,這樣一篇被拒論文重新匿名投給其他的會議時就能依舊保持匿名。ASE 的主席則發(fā)現(xiàn),在某些情況下,揭示論文作者有助于更好地理解論文的貢獻與價值。
總的來說,所有的主席們都不認(rèn)為雙盲評審會增加行政負擔(dān),ASE 的程序委員會主席雇傭了兩個評審流程主席來協(xié)助他的工作,負擔(dān)并不重。OOPSLA 的程序委員會主席也認(rèn)同施行雙盲評審的負擔(dān)并不重,他覺得更重要的是指導(dǎo)作者進行匿名。PLDI 則是讓作者將論文提交給程序委員會主席,然后由他進行派發(fā),新增行政負擔(dān)也是微不足道。
雙盲評審的額外負擔(dān)來自于課題沖突,而會議管理軟件則可以簡化沖突管理,所有的程序委員會主席都認(rèn)為處理這些沖突并不困難,PLDI 的程序委員會主席認(rèn)為雙盲評審帶來的好處完全大于它所產(chǎn)生的負擔(dān)。
ACL 的新政為何引發(fā)爭議?
顯然雙盲評審正如大家一致認(rèn)為地那樣不僅確實有積極的效果,而且不難做,那么 ACL 嘗試保護雙盲新政為何引起了爭議呢?
首先,論文的信息公開和研究內(nèi)容的快速迭代更新已經(jīng)是領(lǐng)域內(nèi)通行的做法,雙盲評審帶來的各種限制也只能是取得平衡而無法完全在時效性和公開性方面開倒車。有人認(rèn)為「截稿前一個月限制公開」的做法過于理想化、有效性非常有限。比如它只對首次投稿有用,被拒的論文可以自然地公開上傳到 arXiv 然后投下一個會議;以及,作者完全可以在更早的時候完成并上傳論文,不僅不受到這一限制的影響,更享有了充分的曝光和修訂時間。
新政的支持者、斯坦福大學(xué) NLP 小組(Stanford NLP group)掌門人、2015 年曾任 ACL 主席的 Christopher Manning 也發(fā)言針對這一新政的初衷做了詳細的解釋:
「通過加速研究結(jié)果傳播速度來加速科學(xué)進步是件好事,而過程中使用雙盲評審可以弱化偏見,防止一些名學(xué)者或者大機構(gòu)從中獲利。ACL 的投稿、評審、引用策略規(guī)則就是兩者之間的一種折衷方案。
作為折衷方案,它會給非匿名文章的傳播帶來一些延遲;同時它也無法完美達成雙盲評審的各項要求。但它仍然距離雙盲的要求更近了,我認(rèn)為這是一種好的妥協(xié),目前表現(xiàn)也符合預(yù)期。當(dāng)然如果你并不打算為傳播速度而妥協(xié),而是專注解決多樣性,包容性以及偏見等問題,那么 ACL 的新政可能對你并不重要。
作者的匿名性終究是無法得到絕對保證的,畢竟你要與同事討論工作,或者外出演講提到自己的研究課題,總會泄露的,所以 ACL 新政也并不是希望你隔絕與同事的工作交流。事實上,ACL 的新政策是希望通過高效利用預(yù)印本來加速科學(xué)進步:即在會議截止日期前早早地提交新結(jié)果,或者與同事早早交流初步想法以便之后修改。
之所以設(shè)計了這樣新政,是考慮到了人性的兩大弱點:拖延和健忘,每個人都本可以在截止日期前 35 天完成工作,但很少有人這樣做。一些預(yù)印本或者之前被拒的論文可能經(jīng)過一段時間以后已經(jīng)廣為傳播了,但人們很少記住它們的作者。高匿名性很好的保留了雙盲評審的好處,ACL 現(xiàn)在對非匿名預(yù)印本的限制只是為了避免匿名性被徹底破壞,當(dāng)然同時也盡量多地保留加速科學(xué)交流的做法?!?/p>
結(jié)合文中前半段來自 ASE、OOPSLA、PLDI 會議的數(shù)據(jù),以及保持匿名性過程中的種種難題,實際上我們都會發(fā)現(xiàn)「完全的匿名」是無法達成的。但是既然雙盲評審對于減輕偏見能夠發(fā)揮出效力,我們總還是需要一些措施來提高匿名程度,以及提醒大家,在注重快速自由的溝通交流的同時也不要忘記了我們?nèi)孕枰詾楦鞣N方式努力減少人為的偏見。
via ACM.org,Effectiveness of Anonymization in Double-Blind Review,C. Le Goues, Y. Brun, S. Apel, E. Berger, S. Khurshid, Y. Smaragdakis, Communications of the ACM, Vol. 61 No. 6, Pages 30-33, 10.1145/3208157. Christopher Manning ( Twitter @chrmanning)。雷鋒網(wǎng) AI 科技評論編譯整理
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。