0
編輯 | 岑峰
嗯哼…首先咳嗽一聲,以表事態(tài)嚴峻。
昨天,國內人工智能學術圈曝出了一起重大的論文抄襲事故,登上知乎熱搜:
谷歌大腦研究員于4月8日在個人博客發(fā)文,指出北京智源人工智能研究院、清華大學等等單位新近合作發(fā)表的綜述論文“A Roadmap for Big Model”(大模型路線圖)抄襲了他們的論文“Deduplicating Training Data Makes Languages Models Better”與其他論文,共計十余處。
消息一出,立刻在國內外的社交媒體上引起了眾多AI研究者的關注與討論。
由于該論文篇幅長達200頁,涉及的學者眾多(一百位),因此,自抄襲消息從北京時間4月13日早晨登上知乎熱搜開始,AI科技評論編輯組就一直在盡可能與多位涉事學者核實情況,以求盡可能做到真實、客觀、嚴謹?shù)挠懻摗?/span>
毫無疑問,該論文在arXiv上發(fā)表,作為單單由就職于中國研究機構與高校的學者所合作撰寫的研究綜述,論文被曝抄襲,必然會使中國的AI學術圈蒙羞。
多位學者向AI科技評論表示,這一抄襲事件對華人學者的名聲造成了極大的負面影響。
這再次警示我們的學者:學術誠信原則神圣不可侵犯,應將論文寫作規(guī)范時時銘記在心,不要突破科研的基本底線。
與此同時,我們也需要做到理性分析。論文抄襲被國際友人討論與抨擊,不是藤斷瓜落,而是雪山崩塌。作為圈內的一份子,我們不應抱著「吃瓜」的看客態(tài)度將此事潦草帶過,也不應一桿子打翻一船人。廉潔建設,人人有責。
追索真理,本就是科研的態(tài)度。
首先讓我們來回顧一下事件的經(jīng)過:
今年3月底,一篇由19家機構、100位中國學者聯(lián)合署名發(fā)表在 arXiv 上的200頁論文引起了國內外人工智能領域的廣泛關注。
這篇論文是一篇研究綜述,題為“A Roadmap for Big Model”(大模型路線圖),主要圍繞近年來人工智能領域興起的大規(guī)模語言/視覺模型(如GPT-3)研究進行了深入歸納與討論。
此外,該論文在首頁即表明:大模型的路線圖由清華大學的唐杰教授設計,分為十八節(jié),包含16篇章節(jié),16篇章節(jié)中的每一節(jié)由一位(部分為兩位)通訊作者組織。
論文地址:https://arxiv.org/pdf/2203.14101.pdf
從文章的出發(fā)點(促進大規(guī)模人工智能模型的研究)、合作作者數(shù)量與署名機構的權威性來看,這篇研究綜述對AI研究者均有極大的閱讀吸引力。Google Brain的研究員Nicholas Carlini就是其中一員。
但隨即,4月8日,Nicholas在他的個人博文發(fā)文,稱“A Roadmap for Big Model”一文抄襲了他參與的論文“Deduplicating Training Data Makes Language Models Better”,而且,他還指出,這篇論文至少還抄襲了十余篇其他論文。
博文地址:https://nicholas.carlini.com/writing/2022/a-case-of-plagarism-in-machine-learning.html
在他的博文中,他用綠色高亮部分對比了大模型路線圖一文(左)與其他被抄襲論文(右)的重合部分。其中,我們可以看到,Nicholas所標亮的內容基本是幾句話構成的一大段「復制-粘貼」:
需要注意的是,AI科技評論對比了“A Roadmap for Big Model”與“Deduplicating Training Data Makes Language Models Better”等多篇文章,并借助論文查重器,發(fā)現(xiàn) Nocholas 指出的10處重復來自于多篇不同文章,而知乎的問題讓人感覺Nicholas在自己的一篇文章里找出了10處重復。
Nicholas的文章發(fā)表后,立即在Twitter上引起了不少注意。因此,在4月12日(北京時間4月13日),他又在個人博客中作了更新說明:
沒想到這篇文章發(fā)出后受到了這么多關注……我懇請:不要將這件事變成一場蓋帽子的政治迫害。我見過一些人因為對類似事情發(fā)聲而導致相關人員立即被解雇或被禁止使用arXiv等等。我不會隨便斷定這篇論文(大模型路線圖)是復制自多個來源。在不了解實際的情況下,我不想做判斷。也許一些資歷較淺的作者本意是好的,認為有了引文就可以直接復制文本了。這當中也許有來自上層的壓力,讓一些學生以為要按時交稿,他們的唯一選擇是偷工減料;而對于資深作者來說,他們可能閱讀了文本、認為它讀起來很合理,并只是對文本進行了微調,而不知道文本的來源。關鍵是「我們不知道」。這篇論文的合作者有100位,什么情況都是有可能的。
緊跟推特討論,知乎網(wǎng)友也開始關注到此事。4月13日,題為「如何看待智源、清華等單位論文 A Roadmap for Big Model 中大量段落被指涉嫌抄襲?」的話題沖上熱搜,立即引來了超過500萬的關注度。4月13日一早,當事方智源即在知乎回復,表示注意到了對該論文的質疑,正在對相關情況進行核實,并盡快通報有關進展。
針對該事件,AI科技評論也向該論文涉嫌抄襲章節(jié)的多位作者進行了核查。
由于論文的合作作者多達100位,首先我們需要理智看待的一點是:不能將100位作者相提并論,更不能將一部分作者的抄襲擴大為全部作者的抄襲。
從論文的作者名單可以看到,中國人工智能領域的多位知名權威學者均在其列:
參與該論文的19家機構中,中國高校有6所,中國高校/政府研究機構有4所,企業(yè)有5家(騰訊、華為、京東、字節(jié)跳動、微軟)。其中,分別排名第一與第二的北京人工智能研究院與清華大學最突出:
AI科技評論也注意到,Nicholas指出的疑似抄襲部分重復的嚴重程度不同,大致可分為三類:
較為明顯的大段復制,較明顯的如第2篇文章3.1節(jié)(報告P.13-14,對應于Nicolas的第一處質疑);
圖注:報告P13-14的大段Copy
未給出論文索引的復制,如第8篇文章3.1節(jié)(報告P.69,對應于Nicolas的第三處質疑)復制自《LXMERT: Learning Cross-Modality Encoder Representations from Transformers》、第14篇文章第2節(jié)(報告P.107,對應Nicolas第七處質疑)復制自《Multilingual Denoising Pre-training for Neural Machine Translation》,但在此前版本中的引用文章列表內并未包含這兩篇論文。
圖注:報告P69和P107,復制內容前的引用均不是包含復制文字的論文,也沒有給出論文的相關信息,容易讓人誤解為作者的原創(chuàng)。
作者缺乏經(jīng)驗導致的復制,如第2篇文章4.3節(jié)(報告P.16,對應于Nicolas的第二處質疑)以及第10篇文章第二節(jié)(報告P.80,對應于Nicolas的第四處質疑),均為在復制內容前有類似“在XXX作者的XXX文章中提出...”的字樣,隨后直接復制原作者論文中的總結部分,這也與Nicolas文章更新中提到的“也許一些資歷較淺的作者本意是好的,認為有了引文就可以直接復制文本了”相吻合。
圖注:報告P16和P80,復制內容前給出了論文的相關信息,但沒有用自己的話總結而是直接Copy。
在AI科技評論與作者的溝通中,多位學者也與AI科技評論表示,被指出涉嫌抄襲的部分不是自己提供的內容。所以這件事情出來后,有的老師表示“我自己都是懵的”;而對于AI科技評論針對Nicolas文章所提出的發(fā)現(xiàn),我們所聯(lián)系的老師也均做出了積極的補救措施。
4月13日晚,作為第一責任單位的北京智源人工智能研究院(BAAI)智源在官方網(wǎng)站、知乎、Twitter等國內外平臺上公布了內部調查的初步結果。
官網(wǎng)聲明地址:https://www.baai.ac.cn/portal/article/index/cid/4/id/404.html
智源對這次論文抄襲事故作了調查,公布的初步內部調查顯示有5個章節(jié)“應屬抄襲”:
1. 該報告是一篇大模型領域的綜述,希望盡可能涵蓋國內外該領域的所有重要文獻,由智源研究院牽頭,負責框架設計和稿件匯總,并邀請國內外100位科研人員分別撰寫了16篇獨立的專題文章,每篇文章分別邀請了一組作者撰寫并單獨署名,共200頁。報告發(fā)布后,根據(jù)反饋持續(xù)進行修改完善,到4月2日在arXiv網(wǎng)站上已經(jīng)更新到第三版。
2. 4月13日,我們獲悉谷歌研究員Nicholas Carlini在個人博客上指出該報告抄襲了他們論文的數(shù)個段落,同時還有其他段落和語句抄襲其他論文。我們對此進行了逐項核查,經(jīng)查重確認第2篇文章的第3.1節(jié)179個詞,第8篇文章的第3.1節(jié)74個詞、第12篇文章的第2.3節(jié)55個詞、第14篇文章的第2節(jié)159個詞、第16篇文章的第1節(jié)146個詞與其他論文重復,應屬抄襲。我們決定立即從報告中刪除相應內容,報告修訂版今天將提交arXiv進行更新。目前已通知所有文章的作者對所有內容進行全面審查,后續(xù)經(jīng)嚴格審核后再發(fā)布新版本。
智源表示,“已通知所有文章的作者對所有內容進行全面審查,后續(xù)經(jīng)嚴格審核后再發(fā)布新版本”。此外,智源還稱:他們將邀請第三方專家對報告進行獨立審查,根據(jù)正式調查結果對相關責任人作出問責處理。
需要特別一提的是,《道歉信》中所列舉的抄襲并未完全對應Nicolas文章中的10處質疑(如對第10篇文章就并未提到)。在AI科技評論與智源的事后溝通中得知,道歉信中僅為智源內部參照IEEE抄襲的五級標準進行自查的部分初步結論列舉,正式的認定以第三方正式調查結果為準,“不排除還有其他部分被認定為抄襲”。
《道歉信》發(fā)出之后,在Twitter、微博等平臺上也有不同觀點。
一種聲音是來自國外網(wǎng)友的質疑。如在Twitter上,網(wǎng)友@allonsy 表示對聲明的不認同:“看起來你們并沒有對抄襲進行懲罰的打算。你們給世界留下了不好的印象,我以與你們?yōu)槲楦械叫邜u?!?/span>
對此,智源副院長劉江回復:“請等待后續(xù)消息?!?/span>
另一種聲音是以馬毅為代表的華人學者的支持:
在AI科技評論看來,智源勇于承擔的精神十分可嘉。
但仍要指出的是:盡管智源發(fā)表了致歉聲明,但由于這只是一個初步的內部調查,對于造成這次事故的原因幾乎沒有提及,暫時沒有人被追責,這或許也是國外網(wǎng)友認為道歉聲明“避重就輕”的原因。
而根據(jù)AI科技評論事后與智源的溝通,智源表示會啟動第三方專家調查,以消除這一事件的不利影響。第三方專家的邀請將遵循國際通用的回避原則(如師生、合作者等),并且也考慮邀請部分國外專家如Nicolas參與調查。但在正式調查結果公布之前,對抄襲發(fā)生的原因、規(guī)模、涉及的作者進行猜測是不合適的,這也是劉江回復“請等待后續(xù)回復”的原因。
而根據(jù)智源的總結,他們在報告編寫過程中犯了一個錯誤是沒有對所有作者提交的信息按照論文的標準進行查重。在報告的編寫過程中更多的是參照雜志大專題的方式,將報告分解為多篇文章進行匯總,在互聯(lián)網(wǎng)上發(fā)布并根據(jù)反饋進行修改和快速迭代。而由于協(xié)作單位眾多,各單位的執(zhí)行標準不一以及時間問題都是最終導致這一事件的客觀因素。
智源表示,他們要堅定地承擔起組織和審查嚴謹度責任,絕不推脫。
類似地,也有老師向AI科技評論稱,國內學術界很多人有這樣一種觀點,認為Arxiv論文“沒有經(jīng)過同行評議,不算正式的論文?!?/span>
但該老師也承認,這件事給國內學術界敲了警鐘,因為“公開就要負責,一旦做Co-Authors就得給整篇文章把關”。
正如 Nicholas 指出,100位作者,任何事情都可能發(fā)生。
智源于2018年成立,是政府牽頭支持的科研機構,自成立以來,逐漸成為國內人工智能研究的領頭羊,推出「悟道」大模型等成果,值得贊許。這次的“A Roadmap for Big Model”對標斯坦福的「Foundation Model」,也體現(xiàn)出緊跟前沿的執(zhí)行力。
圖注:斯坦?!窮oundation Model」的論文作者數(shù)量同樣十分龐大
但在這種多人參與大報告的具體執(zhí)行上,國內學者還需要在細節(jié)上下更多功夫。如一位學生在知乎該問題的回復,如何以此為契機加強國內學術圈優(yōu)良學風的建設,對包括論文、文章、代碼等各種抄襲嚴格說No,才是值得當事人思考的地方。
畢竟只有平時的小事做好了,在做大事的時候才不會拉胯。
圖注:知乎相關問題下,一位學生關于學風的回答
對于這一事件的后續(xù)發(fā)展,AI科技評論一方面會持續(xù)關注。對于該事件的前因后果,以及如何規(guī)避,相信讀者仍有著不少疑問。
在與智源的溝通中,我們也列出了一些我們關注的問題。其中部分問題智源給出了回答,但有的問題仍需要有待第三方調查結束后才能得到結論。具體問題如下:
Q:這篇研究綜述涉及到19家機構,分為18分部分綜合而成,智源如何組織?
A:智源在組織這篇研究綜述的時候是將其當做一個報告而非正式論文,因此采取的也是類似“大專題”的形式分解成多篇文章,每篇文章也有專門的通訊作者署名負責。在平臺上選擇的也是Arxiv這種互聯(lián)網(wǎng)平臺,以便于得到反饋后得以修改更新。
Q:智源在聲明中稱會轉交第三方專家獨立處理,第三方專家由哪些人組成?回避的原則是?
A:從消除不利影響的角度上來說,我們當然希望越快調查完越好,但在比較短的時間例如一個星期完成也是不現(xiàn)實的。智源目前有一些第三方專家的意向人選,但還沒有最終定下名單。我們會按照現(xiàn)成的原則進行回避,如師生關系、合作者關系都是需要回避的。
Q:智源如何判斷是否構成抄襲?關于10處問題的的嚴重程度如何認定?是否意味著接受有的知乎網(wǎng)友的說法,提到了原論文并摘抄就不算?
A:智源的初步報告中列舉的只是我們根據(jù)IEEE抄襲的五個等級進行認定、目前可以確認的內容,這并不是最后結論。我們也會借助專業(yè)工具,在后續(xù)的第三方調查中也有可能會有新的內容被認定為抄襲。
Q:在后續(xù)的科研工作開展中,你們會如何規(guī)避類似此次的抄襲事故?
A:我們犯的一個錯誤是沒有按論文的標準在對這篇報告進行查重。如果我們做了查重,我們就能發(fā)現(xiàn)上述問題,并反饋給作者進行更改。智源對學術不端持零容忍態(tài)度,以后會通過開展作者自查、學風教育等方式避免類似事故發(fā)生。也歡迎學術界、媒體進行監(jiān)督。
Q:事件調查完成后,智源是否會發(fā)布明白的事件經(jīng)過調查公告?
A: 會發(fā)布相關公告。
Q:關于論文「引用不當」與「抄襲」,智源的理解是怎樣的?是否會對科研工作者制定嚴格的寫作規(guī)范指南?
A:我們一定會制定嚴格的寫作規(guī)范指南。而且這個指南和國際標準不會有太大出入。
而下列問題的回答本身屬于調查的一部分,仍期望智源進行進一步調查:
該論文的每一位署名作者,是否在論文發(fā)表前對全文內容具有知情權、并在發(fā)表時征得每位作者的同意?
是否存在如一個被刪除的回答所說,只給他一個星期的寫作時間,而且并沒有最后通閱全文?
為什么是100位作者,是否有湊整數(shù)好看之嫌?為此,是否存在如知乎回答所說導師讓學生干活而只掛自己名(可能是限于名額),然后學生只保證有東西不保證質量的情況?
十年樹木、百年樹人。人才永遠是科研進步的根基,若因學術不端事件打擊青年人才的科研積極性,對學術失去信心,那中國的AI未來發(fā)展便真的是岌岌可危了。
時日維艱,也希望學者銘記:你們的科研資金來自于納稅人。做研究,是要有責任心的。
最后,相信學者們以后在論文合作上都會留一個心眼了。但愿這次事件沒有阻礙學術的交流。
參考鏈接:
https://www.zhihu.com/question/527620020
https://nicholas.carlini.com/writing/2022/a-case-of-plagarism-in-machine-learning.html
https://arxiv.org/pdf/2203.14101.pdf
https://www.baai.ac.cn/portal/article/index/cid/4/id/404.html
雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。