來自紐約雪城大學(xué)的機(jī)器學(xué)習(xí)研究人員Daniel Acuna開發(fā)了一款論文圖像查重軟件,他用這款軟件檢查了3500篇論文的21,000張圖像,在4小時內(nèi)查出大約400張疑似重復(fù)的圖像,這項技術(shù)或許將為學(xué)術(shù)造假亂象的解決帶來曙光。近日,Nature還對相關(guān)事件進(jìn)行了報道。 由于利益誘惑和成本低廉,學(xué)術(shù)造假屢禁不止。在國內(nèi),學(xué)術(shù)造假的最終結(jié)果幾乎都是不了了之。根據(jù)中國科學(xué)技術(shù)信息研究所的報告,中國發(fā)表SCI論文數(shù)量已居世界第二,緊追美國。截止2020年6月22日,全世界共有23425篇SCI撤稿,其中中國10303篇,占比44%。此外,每年中國SCI論文撤稿占所有撤稿的比例也持續(xù)上升,2019年達(dá)到30%,2020年目前為止已達(dá)到33%。今年,中國已有317篇SCI論文撤稿,相對的,美國有215篇SCI論文撤稿。近三年來,剽竊和錯誤是中國SCI論文撤稿的首要原因。其中剽竊主要是指文字抄襲,目前的查重系統(tǒng)只能查重文字,不能查重圖像。而錯誤則主要是指 圖像錯誤,包括經(jīng)過PS然后重復(fù)使用的圖像。學(xué)術(shù)論文造假手段常用的有四種:1、重復(fù)用圖;2、編造數(shù)據(jù),用ps涂抹修圖;3、花錢買論文;4、偽造審稿人。其中第一種和第二種最常用,造假成本最低,以重復(fù)用圖進(jìn)行學(xué)術(shù)造假的案例屢見不鮮。2020年5月, 素有“打假斗士”之稱的Elisabeth Bik博士,舉報中國8篇論文 “不同作者、不同大學(xué)所屬醫(yī)院、不同癌種、不同蛋白表達(dá),結(jié)果卻一模一樣”。2020年6月,學(xué)術(shù)打假網(wǎng)站PubPeer上有人質(zhì)疑清華大學(xué)醫(yī)學(xué)院院長董晨24篇文章有些實驗圖像存在問題。舉報者表示:在這24篇論文里,出現(xiàn)了部分實驗圖像在不同項目中重復(fù)出現(xiàn),但標(biāo)記數(shù)值不同;兩幅實驗圖像相似度極高;不同指標(biāo)的直方圖完全一致的情況?;谥蠖康幕貜?fù),有知乎網(wǎng)友分析:他實際上委婉默認(rèn)了有造假的地方,只是在造假程序或者數(shù)量上有不同的意見。近日,網(wǎng)傳Pubpeer 曝出北京大學(xué)常務(wù)副校長、中國工程院院士詹啟敏的 25 篇論文涉嫌學(xué)術(shù)造假。這25篇論文被懷疑將相同圖像修改后應(yīng)用于不同實驗甚至不同論文中。可見,圖像查重對于論文審查是非常重要的一環(huán),而純粹靠人工審查則相當(dāng)費(fèi)時費(fèi)力,Daniel Acuna開發(fā)的這款軟件無疑是一大利器。由于擔(dān)心關(guān)于COVID-19的研究論文可能存在過多的草率工作,紐約雪城大學(xué)信息研究學(xué)院的助理教授Daniel Acuna 開發(fā)了一個能夠對論文中的圖像進(jìn)行查重的程序,據(jù)悉,現(xiàn)在這項程序已被應(yīng)用在全球的新冠病毒相關(guān)論文的預(yù)印本上。對于開發(fā)這項程序的初衷,Daniel Acuna 表示:“我無法阻止疫情,只能以自己的方式做出貢獻(xiàn)?!?/span>該算法可一次篩選成千上萬張論文以匹配圖像,翻轉(zhuǎn)、調(diào)整大小或旋轉(zhuǎn)的圖像也可以進(jìn)行匹配。這些重復(fù)圖像可能是無意的失誤,也可能是不當(dāng)行為的結(jié)果。原本這項工作通常由專家人工檢查,或用軟件檢查少量論文中的圖像。但需要注意的是,目前這項程序仍處于試驗階段,正在接受期刊和研究機(jī)構(gòu)的測試。到目前為止,這項工作取得了一定程度的成功,但也引起了一些爭議。今年6月,Daniel Acuna從bioRxiv和medRxiv服務(wù)器上下載了3500個預(yù)印本,用他的軟件查重了21,000張圖像。在4小時內(nèi),該軟件就查出了大約400張可能重復(fù)的圖像。不過大多數(shù)結(jié)果都沒有問題,他選擇了24篇包含可疑重復(fù)圖像的論文。7月,他在自己的網(wǎng)站上發(fā)布了這些內(nèi)容,并在PubPeer上公開。這件事隨后引起了轟動。一些論文作者回應(yīng)說,Daniel Acuna的軟件確實查出了重復(fù)的圖像,他們將糾正錯誤,不過也有一些錯誤已經(jīng)在同行評審版本中得到糾正。芬蘭赫爾辛基大學(xué)的病毒學(xué)家Giuseppe Ballistreri 對于這項技術(shù),也持肯定態(tài)度,他表示,“如果該工具被證明是準(zhǔn)確的,則應(yīng)默認(rèn)在PubMed中應(yīng)用。”PubMed 是一個免費(fèi)的搜索引擎,提供生物醫(yī)學(xué)方面的論文搜索以及摘要。另一方面,也有其他人指出,這些重復(fù)不是錯誤。Elisabeth BikBik以其在科學(xué)出版物中檢測照片操縱的工作而聞名,她表示,希望Daniel Acuna首先向她咨詢匹配結(jié)果。她進(jìn)一步在PubPeer寫道,該軟件“仍然需要人工監(jiān)督,以確保它不會錯誤地將適當(dāng)?shù)闹貜?fù)圖像標(biāo)記為不適當(dāng)”。對于 Elisabeth BikBik 的觀點,Daniel Acuna 表示同意:軟件標(biāo)記的內(nèi)容始終需要人來審核,并且尚無法根據(jù)上下文了解所獲取的內(nèi)容是否有問題。更有一些研究人員指出,Daniel Acuna的軟件完全弄錯了,而且標(biāo)記了相似但不匹配的圖像。例如,北卡羅來納州達(dá)勒姆市杜克大學(xué)的Priyamvada Acharya要求Daniel Acuna刪除他的一篇論文的匹配結(jié)果,該論文包含同一分子的相似視角圖。隨后,Daniel Acuna從他的網(wǎng)站上刪除了大約三分之一的檢查結(jié)果,并將該網(wǎng)站的列表設(shè)置為私人訪問。如此,只有從他那里獲得訪問密鑰的作者才能看到他的檢查結(jié)果。總體而言,這項研究論文的自動篩選技術(shù)遠(yuǎn)非完美,而且“仍然需要專家來解釋和理解”。此外,德國海德堡的圖像分析師 Jana Christopher 也指出了該技術(shù)的另一局限性:自動圖像檢查算法仍然過于專注于查找重復(fù)項,并且還不能應(yīng)對所有圖像處理手段。除了技術(shù)上的不完美性,Daniel Acuna 本人還指出了影響軟件的準(zhǔn)確性的一個外在因素:PDF文件格式會破壞自動提取圖像的能力。例如,今年5月,Elisabeth Bik在推特上敘述了關(guān)于Nature的一篇COVID-19 論文的圖像復(fù)制問題,該圖像也出現(xiàn)在2月份的預(yù)印本中,但Daniel Acuna的軟件由于論文是PDF格式而沒有檢查到。目前為止,關(guān)于新冠病毒的研究產(chǎn)生了無數(shù)的論文,許多研究人員擔(dān)心出現(xiàn)低質(zhì)量的研究和錯誤,甚至欺詐。有科學(xué)家發(fā)出警告:“質(zhì)量低劣的研究將泛濫成災(zāi)”。接下來,Daniel Acuna 打算繼續(xù)進(jìn)行論文重復(fù)圖像的自動檢查,而之后首先要做的事情,就是將查重結(jié)果告知作者,只有在他們不回應(yīng)的情況下才公開結(jié)果。對于學(xué)術(shù)界低質(zhì)論文泛濫成災(zāi)的現(xiàn)象,Daniel Acuna 也發(fā)出了告誡:“我希望那些正在動歪腦筋的論文作者們意識到,有人正在對論文圖像進(jìn)行查重。”參考內(nèi)容:https://www.nature.com/articles/d41586-020-02161-3
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。