ICLR 2022出現(xiàn)抄襲論文 | reddit 網(wǎng)友熱議：迷惑行為？

本文作者：我在思考中

2021-11-03 14:39

專(zhuān)題：ICLR 2019

導(dǎo)語(yǔ)：在學(xué)術(shù)造假盛行的當(dāng)下，ICLR 2022 也沒(méi)能幸免。

作者 | 杏花、王曄

編輯 | 青暮

最近，越來(lái)越多關(guān)于論文抄襲的消息被爆出來(lái)，ICLR 2022 也成了“在逃之魚(yú)”。

網(wǎng)友：第二頁(yè)都是空白的！

這是又發(fā)生了啥？

ICLR，全稱(chēng) International Conference on Learning Representations（國(guó)際學(xué)習(xí)表征會(huì)議），2013 年由位列深度學(xué)習(xí)三巨頭之二的 Yoshua Bengio 和 Yann LeCun 牽頭創(chuàng)辦。

眾所周知，Yoshua Bengio 是蒙特利爾大學(xué)教授，深度學(xué)習(xí)三巨頭之一，他領(lǐng)導(dǎo)蒙特利爾大學(xué)的人工智能實(shí)驗(yàn)室（MILA）進(jìn)行 AI 技術(shù)的學(xué)術(shù)研究。MILA 是世界上最大的人工智能研究中心之一，與谷歌也有著密切的合作。

而 Yann LeCun 就自不用提，同為深度學(xué)習(xí)三巨頭之一的他現(xiàn)任 Facebook 人工智能研究院（FAIR）院長(zhǎng)、紐約大學(xué)教授。作為卷積神經(jīng)網(wǎng)絡(luò)之父，他為深度學(xué)習(xí)的發(fā)展和創(chuàng)新作出了重要貢獻(xiàn)。

因此，這個(gè)一年一度的會(huì)議雖成立時(shí)間不長(zhǎng)，但已獲得學(xué)術(shù)界廣泛認(rèn)可，被認(rèn)為是深度學(xué)習(xí)的頂級(jí)會(huì)議。然而，如此權(quán)威的學(xué)術(shù)會(huì)議上竟出現(xiàn)論文抄襲現(xiàn)象，ICLR 2022 出現(xiàn)抄襲論文在 reddit 引起網(wǎng)友熱議。僅針對(duì)此事，AI科技評(píng)論帶大家吃一波瓜。

事件回顧：https://www.reddit.com/r/MachineLearning/comments/qkb6ga/plagiarism_case_detected_iclr_2022_newsdiscussion/

這篇文論講了什么？

這篇被 ICLR 2022 認(rèn)為抄襲的論文提出了 Text-Gen，一種新的對(duì)抗性文本生成技術(shù)。論文的研究人員發(fā)現(xiàn)，Text-Gen 在給定輸入文本的情況下，可以快速有效地生成對(duì)抗性文本。

ICLR 2022出現(xiàn)抄襲論文 | reddit 網(wǎng)友熱議：迷惑行為？

論文地址：https://openreview.net/pdf?id=EO4VJGAllb

例如，為了攻擊情感分類(lèi)模型，Text-Gen 可以使用產(chǎn)品類(lèi)別作為不應(yīng)改變?cè)u(píng)論情感的屬性。研究人員在真實(shí)世界的 NLP 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，從而證明與許多現(xiàn)有的對(duì)抗性文本生成方法相比，Text-Gen 可以生成更有意義和多樣化的對(duì)抗性文本。然后，論文的作者們還進(jìn)一步使用生成的對(duì)抗性示例通過(guò)對(duì)抗性訓(xùn)練來(lái)改進(jìn)模型，并且證明了生成的攻擊對(duì)于模型重新訓(xùn)練和不同的模型架構(gòu)更加穩(wěn)健。

匆匆一瞥，這貌似是一篇站在“巨人肩膀上”的又一推陳出新之作，且截止被發(fā)現(xiàn)抄襲前，這篇論文已經(jīng)通過(guò)雙盲評(píng)審（double-blind review）。那么，這篇論文為何會(huì)被認(rèn)為抄襲呢？

三大罪證，屬實(shí)不冤

從 ICLR 2022 給出的官方聲明中，我們發(fā)現(xiàn)，這篇論文被認(rèn)為抄襲，屬實(shí)不冤。那它究竟觸犯了哪些大忌，讓創(chuàng)作者們的心血自此付之一炬？

首先，該論文的多處“采用”其實(shí)是直接復(fù)制/粘貼自其它論文，但作者卻表明這是“引用”。例如，論文的圖 1，包括標(biāo)題，就完全復(fù)制/粘貼自另一篇論文 CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation. Wang et al. EMNLP 2020.。

其次，該論文有兩處直接截圖自其他論文，但作者沒(méi)有注明來(lái)源。比如，文中的算法 1 來(lái)自論文 FreeLB: Enhanced Adversarial Training for Natural Language Understanding. Zhu et al. ICLR 2020.

最后，也許作者在抄襲的過(guò)程中良心發(fā)現(xiàn)，對(duì)參考文獻(xiàn)做了一些修改，但卻遭到 ICLR 2022 工作人員的無(wú)情吐槽：改了還不如不改。例如，這篇論文表 3 的一些修改就沒(méi)有原文的好。

此番看來(lái)，這篇抄襲論文可謂罪行累累且證據(jù)充足。目前，這篇論文已退回至原作者手中。

reddit網(wǎng)友熱議：迷惑行為？

reddit上關(guān)于此事的議論，大概是這幾種聲音：論文質(zhì)量太差漏洞百出；害，這種事情見(jiàn)多了；這位作者難道在反向測(cè)試，看有沒(méi)有評(píng)審會(huì)發(fā)現(xiàn)論文抄襲了？

帖子地址：

https://www.reddit.com/r/MachineLearning/comments/qkb6ga/plagiarism_case_detected_iclr_2022_newsdiscussion/

有的網(wǎng)友對(duì)這種行為感到很迷惑：非常奇怪，也許作者根本不是ML研究人員，他們看起來(lái)像研究數(shù)據(jù)庫(kù)安全方面的。

還有網(wǎng)友指出論文粗制濫造，都沒(méi)有刻意想要隱瞞抄襲這件事情。

于是就有網(wǎng)友猜測(cè)，難道是為了釣魚(yú)可以在博客寫(xiě)一篇文章——我在ML頂會(huì)投了一篇滿(mǎn)是廢話(huà)的論文，而同行評(píng)審沒(méi)有發(fā)現(xiàn)！

不僅論文本身漏洞百出、疑點(diǎn)重重，還有網(wǎng)友表示馬上要發(fā)布評(píng)審卻撤回了，這很奇怪。

這位網(wǎng)友還提出了自己的疑問(wèn)：不太了解ICLR的評(píng)審過(guò)程：難不成論文在評(píng)審發(fā)布前被撤回，就不發(fā)布評(píng)審/評(píng)論？還是如果論文進(jìn)入評(píng)審階段，無(wú)論如何都會(huì)發(fā)布評(píng)審？