來自紐約雪城大學的機器學習研究人員Daniel Acuna開發(fā)了一款論文圖像查重軟件,他用這款軟件檢查了3500篇論文的21,000張圖像,在4小時內查出大約400張疑似重復的圖像,這項技術或許將為學術造假亂象的解決帶來曙光。近日,Nature還對相關事件進行了報道。 由于利益誘惑和成本低廉,學術造假屢禁不止。在國內,學術造假的最終結果幾乎都是不了了之。根據中國科學技術信息研究所的報告,中國發(fā)表SCI論文數(shù)量已居世界第二,緊追美國。截止2020年6月22日,全世界共有23425篇SCI撤稿,其中中國10303篇,占比44%。此外,每年中國SCI論文撤稿占所有撤稿的比例也持續(xù)上升,2019年達到30%,2020年目前為止已達到33%。今年,中國已有317篇SCI論文撤稿,相對的,美國有215篇SCI論文撤稿。近三年來,剽竊和錯誤是中國SCI論文撤稿的首要原因。其中剽竊主要是指文字抄襲,目前的查重系統(tǒng)只能查重文字,不能查重圖像。而錯誤則主要是指 圖像錯誤,包括經過PS然后重復使用的圖像。學術論文造假手段常用的有四種:1、重復用圖;2、編造數(shù)據,用ps涂抹修圖;3、花錢買論文;4、偽造審稿人。其中第一種和第二種最常用,造假成本最低,以重復用圖進行學術造假的案例屢見不鮮。2020年5月, 素有“打假斗士”之稱的Elisabeth Bik博士,舉報中國8篇論文 “不同作者、不同大學所屬醫(yī)院、不同癌種、不同蛋白表達,結果卻一模一樣”。2020年6月,學術打假網站PubPeer上有人質疑清華大學醫(yī)學院院長董晨24篇文章有些實驗圖像存在問題。舉報者表示:在這24篇論文里,出現(xiàn)了部分實驗圖像在不同項目中重復出現(xiàn),但標記數(shù)值不同;兩幅實驗圖像相似度極高;不同指標的直方圖完全一致的情況?;谥蠖康幕貜?,有知乎網友分析:他實際上委婉默認了有造假的地方,只是在造假程序或者數(shù)量上有不同的意見。近日,網傳Pubpeer 曝出北京大學常務副校長、中國工程院院士詹啟敏的 25 篇論文涉嫌學術造假。這25篇論文被懷疑將相同圖像修改后應用于不同實驗甚至不同論文中。可見,圖像查重對于論文審查是非常重要的一環(huán),而純粹靠人工審查則相當費時費力,Daniel Acuna開發(fā)的這款軟件無疑是一大利器。由于擔心關于COVID-19的研究論文可能存在過多的草率工作,紐約雪城大學信息研究學院的助理教授Daniel Acuna 開發(fā)了一個能夠對論文中的圖像進行查重的程序,據悉,現(xiàn)在這項程序已被應用在全球的新冠病毒相關論文的預印本上。對于開發(fā)這項程序的初衷,Daniel Acuna 表示:“我無法阻止疫情,只能以自己的方式做出貢獻?!?/span>該算法可一次篩選成千上萬張論文以匹配圖像,翻轉、調整大小或旋轉的圖像也可以進行匹配。這些重復圖像可能是無意的失誤,也可能是不當行為的結果。原本這項工作通常由專家人工檢查,或用軟件檢查少量論文中的圖像。但需要注意的是,目前這項程序仍處于試驗階段,正在接受期刊和研究機構的測試。到目前為止,這項工作取得了一定程度的成功,但也引起了一些爭議。今年6月,Daniel Acuna從bioRxiv和medRxiv服務器上下載了3500個預印本,用他的軟件查重了21,000張圖像。在4小時內,該軟件就查出了大約400張可能重復的圖像。不過大多數(shù)結果都沒有問題,他選擇了24篇包含可疑重復圖像的論文。7月,他在自己的網站上發(fā)布了這些內容,并在PubPeer上公開。這件事隨后引起了轟動。一些論文作者回應說,Daniel Acuna的軟件確實查出了重復的圖像,他們將糾正錯誤,不過也有一些錯誤已經在同行評審版本中得到糾正。芬蘭赫爾辛基大學的病毒學家Giuseppe Ballistreri 對于這項技術,也持肯定態(tài)度,他表示,“如果該工具被證明是準確的,則應默認在PubMed中應用。”PubMed 是一個免費的搜索引擎,提供生物醫(yī)學方面的論文搜索以及摘要。另一方面,也有其他人指出,這些重復不是錯誤。Elisabeth BikBik以其在科學出版物中檢測照片操縱的工作而聞名,她表示,希望Daniel Acuna首先向她咨詢匹配結果。她進一步在PubPeer寫道,該軟件“仍然需要人工監(jiān)督,以確保它不會錯誤地將適當?shù)闹貜蛨D像標記為不適當”。對于 Elisabeth BikBik 的觀點,Daniel Acuna 表示同意:軟件標記的內容始終需要人來審核,并且尚無法根據上下文了解所獲取的內容是否有問題。更有一些研究人員指出,Daniel Acuna的軟件完全弄錯了,而且標記了相似但不匹配的圖像。例如,北卡羅來納州達勒姆市杜克大學的Priyamvada Acharya要求Daniel Acuna刪除他的一篇論文的匹配結果,該論文包含同一分子的相似視角圖。隨后,Daniel Acuna從他的網站上刪除了大約三分之一的檢查結果,并將該網站的列表設置為私人訪問。如此,只有從他那里獲得訪問密鑰的作者才能看到他的檢查結果。總體而言,這項研究論文的自動篩選技術遠非完美,而且“仍然需要專家來解釋和理解”。此外,德國海德堡的圖像分析師 Jana Christopher 也指出了該技術的另一局限性:自動圖像檢查算法仍然過于專注于查找重復項,并且還不能應對所有圖像處理手段。除了技術上的不完美性,Daniel Acuna 本人還指出了影響軟件的準確性的一個外在因素:PDF文件格式會破壞自動提取圖像的能力。例如,今年5月,Elisabeth Bik在推特上敘述了關于Nature的一篇COVID-19 論文的圖像復制問題,該圖像也出現(xiàn)在2月份的預印本中,但Daniel Acuna的軟件由于論文是PDF格式而沒有檢查到。目前為止,關于新冠病毒的研究產生了無數(shù)的論文,許多研究人員擔心出現(xiàn)低質量的研究和錯誤,甚至欺詐。有科學家發(fā)出警告:“質量低劣的研究將泛濫成災”。接下來,Daniel Acuna 打算繼續(xù)進行論文重復圖像的自動檢查,而之后首先要做的事情,就是將查重結果告知作者,只有在他們不回應的情況下才公開結果。對于學術界低質論文泛濫成災的現(xiàn)象,Daniel Acuna 也發(fā)出了告誡:“我希望那些正在動歪腦筋的論文作者們意識到,有人正在對論文圖像進行查重。”參考內容:https://www.nature.com/articles/d41586-020-02161-3
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。