別再抄襲論文圖片了，機(jī)器學(xué)習(xí)算法能自動檢測出來

本文作者： camel

2018-02-26 22:33

導(dǎo)語：誠實做人，安心做事

雷鋒網(wǎng) AI 科技評論按：近期來自紐約雪城大學(xué)的 Daniel Acuna 等人在 bioRxiv 上發(fā)表了一篇文章，作者在文章提出了一種機(jī)器學(xué)習(xí)算法，該算法能夠自動進(jìn)行論文圖片查重，其目的旨在解決文獻(xiàn)查重中的一個死角——圖片查重。

目前許多期刊都會對一些圖片進(jìn)行查重，但只有極少數(shù)的期刊有自動化的查重流程。例如《Nature》期刊對收到的稿件一般會進(jìn)行隨機(jī)抽樣檢測，《Journal of Cell Biology》以及《The EMBO Journal》等期刊則對稿件中的大部分圖片進(jìn)行手工查重。顯然手工查重費時費力，這也是為什么到目前為止大部分期刊都沒有圖片查重這一項。

然而這并不意味著圖片查重不重要；如果能夠及時發(fā)現(xiàn)不當(dāng)?shù)膱D片抄襲（重用），那么可能會制止許多學(xué)術(shù)不端行為。

以 2014 年轟動學(xué)術(shù)圈的小保方晴子（Haruko Obokata）學(xué)術(shù)造假丑聞為例，當(dāng)時小保方團(tuán)隊同一天在《Nature》上發(fā)表了兩篇文章，文章稱他們從新生小鼠身上分離的細(xì)胞通過 STAP 方法能夠獲得胚胎干細(xì)胞。

別再抄襲論文圖片了，機(jī)器學(xué)習(xí)算法能自動檢測出來

據(jù)后來人們的調(diào)查發(fā)現(xiàn)，在文章中竟赫然有兩張圖片使用了她在博士學(xué)位論文中的圖片，而這些圖片當(dāng)時是用于表示細(xì)胞原本就處于胚胎狀態(tài)的，而非 STAP 之后變?yōu)榕咛顟B(tài)。在這個事件中，如果《Nature》期刊能夠在發(fā)表之前檢測出文章中的圖片重用，那么這個讓整個學(xué)術(shù)圈震驚的造假丑聞也許就能扼殺于搖籃之中了。

然而事實是，沒有。

再說一下美國研究誠信辦公室（US Office of Research Integrity, ORI）。ORI 有多種工具來協(xié)助工作人員進(jìn)行圖片查重，但每年他們也只報告了大約 10 例的學(xué)術(shù)不端行為；為了這少數(shù)的幾例報告，不知道他們要查閱多少案例/文件以及對比多少圖片。不過需要說明的是，ORI 并不會去主動審查學(xué)術(shù)不端（成本有點高），除非有匿名檢舉。

顯然，他們期待自動圖片查重程序的出現(xiàn)。

Daniel Acuna 等人發(fā)表在 bioRxiv 上的這篇預(yù)印文章或許為此提供了一線希望。

總的來說，作者首先分析了 PubMed Open Access Subset（PMOS）數(shù)據(jù)集（2015）中包含的 200 多萬張圖片，通過他們開發(fā)的自動查重管道能夠自動檢測出由相同的第一（最末）作者發(fā)布的多組論文的圖片重用。之所以做出「相同的第一（最末）作者」的限定，是為了降低模型的時間復(fù)雜度。由于缺乏相應(yīng)的測試數(shù)據(jù)集，作者就制定一個標(biāo)準(zhǔn)，然后讓一群人類審閱者手工來檢查這些檢測到的圖片是否真的有重用，以此來評價自動查重管道的有效性。

下面我們來看這篇論文的詳細(xì)內(nèi)容。

數(shù) 據(jù)

作者分析了 PMOS（2015）上來自 4324 個期刊的 760036 篇論文，其中有 2,628,959 張圖片。當(dāng)然并不是所有的圖片都會被用到，例如有些是和公式相關(guān)；將這些圖片從中清除掉。平均來說大約每篇論文包含 4.78 張圖片。

方法

文章中使用的方法包括：復(fù)制-移動檢測算法（Copy-move detection algorithm）、生物醫(yī)學(xué)補(bǔ)丁檢測（Biomedical patches detector）、人工評估算法的有效性。

別再抄襲論文圖片了，機(jī)器學(xué)習(xí)算法能自動檢測出來

復(fù)制-移動檢測算法

作者在這里使用了和 V. Christlein et al.(2012) 相同的算法：基于關(guān)鍵點的檢測方法。這有以下幾個流程：

別再抄襲論文圖片了，機(jī)器學(xué)習(xí)算法能自動檢測出來

（Fig A）使用低閾值 SIFT 關(guān)鍵點檢測算法計算關(guān)鍵點。
（Fig B）找到歐氏空間中圖片上的所有關(guān)鍵點中兩兩鄰近的點，這些關(guān)鍵點對的間距要小于等于第二近鄰距離的 60%。將其他沒有匹配或匹配程度小于 40 個像素的關(guān)鍵點移除。
（Fig C）對關(guān)鍵點進(jìn)行平面聚類，移除聚類面積小于 40x40 平方像素的集群。如果再一個集群中，有超過三個關(guān)鍵點與同一個集群相匹配，那么就將這兩個集群定義為匹配集群。
（Fig D）使用 RanSac 算法找到匹配的簇之間的仿射變換。

如我們前面所說，考慮到在數(shù)百萬張圖片上進(jìn)行最近鄰搜索的時間復(fù)雜度，作者在這里只分析了第一（最末）作者的數(shù)據(jù)。雷鋒網(wǎng)認(rèn)為，如果想要將這種算法應(yīng)用到實際應(yīng)用中，可能還需要考慮如何降低該算法的時間復(fù)雜度。

生物醫(yī)學(xué)補(bǔ)丁檢測

在科學(xué)文章中，許多圖片都有著極為相似的區(qū)域，例如許多圖片會使用相似的文本和形狀來描述圖形的某些區(qū)域（軸標(biāo)簽、箭頭等），因此前面的算法發(fā)現(xiàn)的許多匹配可能就是這些內(nèi)容。于是作者開發(fā)了另外一個額外的步驟。

作者首先從上一步「復(fù)制-移動檢測」結(jié)果中抽取 20k 的樣本，讓隨機(jī)森林來預(yù)測一個匹配是生物醫(yī)學(xué)匹配的概率，然后根據(jù)預(yù)測的熵對這些匹配進(jìn)行排序，選擇出熵值較高的匹配，然后讓一些論文作者來標(biāo)記（哪些是生物醫(yī)學(xué)匹配）。人工標(biāo)記后，將這些數(shù)據(jù)添加到訓(xùn)練數(shù)據(jù)集中，然后重復(fù)這個過程。通過這種方式來清除掉非生物醫(yī)學(xué)的匹配。

這種方法明顯有一個很大的不足之處，即需要專業(yè)知識才能進(jìn)行人工標(biāo)注。這大大限制了本文方法的廣泛應(yīng)用。這個作者在文章中也有提到。

人工評估算法的有效性

論文圖片查重研究的一個很大問題是，沒有測試集。于是 Daniel Acuna 他們?nèi)司蛽?dān)任了這個人類評估器。他們制作了一個基于網(wǎng)絡(luò)的工具，這個工具包含了上述匹配結(jié)果中的 10000 個可能有問題的案例，并且提供了與 PUBMED 的鏈接，能夠看到相應(yīng)圖片的標(biāo)題、說明以及文章本身。三個人獨立審查了所有這些案例，并按照 No problem、suspicious、potential fraud、fraud 來給這些匹配結(jié)果進(jìn)行評估。

結(jié) 果

經(jīng)過以上三個步驟以及相關(guān)細(xì)節(jié)的約束，作者得出如下圖所示的結(jié)果。

別再抄襲論文圖片了，機(jī)器學(xué)習(xí)算法能自動檢測出來

其中左側(cè) A 圖為生物醫(yī)學(xué)圖被重用的比例?？梢钥闯觯谒羞@些論文中有大約 1.5%（0.6%+0.9%）的論文是需要考察其論文是否存在欺騙，其中有 0.6% 的論文存在明顯的圖片重用。

另一方面，從右側(cè)的 B 圖，我們可以看出一個有意思的現(xiàn)象：跨論文的圖片重用匹配更有可能屬于學(xué)術(shù)不端行為（43.1%）。

討論

這篇論文的意義一方面指出了 PubMed 開放獲取的論文中，有相當(dāng)多的論文（0.59%）被三位科學(xué)家一致認(rèn)為存在欺詐行為，另一方面它提出了一種大規(guī)模分析文獻(xiàn)圖片重用（抄襲、欺詐）的方法，為各類期刊及研究誠信機(jī)構(gòu)提供了可行的、節(jié)省成本的方法。

當(dāng)然（我們也在上文中部分指出了）這項工作還存在著許多有待改進(jìn)的地方：

在標(biāo)記非生物醫(yī)學(xué)補(bǔ)丁時，需要有專業(yè)背景知識的專家的參與，這大大限制了這種方法擴(kuò)展到其他領(lǐng)域。如何改進(jìn)算法或框架，從而不再需要專家知識，是接下來研究的重點之一。
Daniel Acuna 等人的這項工作為了降低時間復(fù)雜度，一方面只選擇了少量的生物醫(yī)學(xué)的出版物（4324 個期刊的 760036 篇論文），另一方面只考慮了第一（末位）作者自身論文中的圖片重用現(xiàn)象。能否將這種方法應(yīng)用到億級規(guī)模的出版文獻(xiàn)庫中，還有待觀察。不管怎么來說，降低模型的復(fù)雜度，是將這種方法推廣到工業(yè)級的必由之路。
還有一點，也是這種方法的一個痛點，即沒有測試集。如何構(gòu)建訓(xùn)練-測試集，可能是促進(jìn)相關(guān)研究的一項重要工作。雷鋒網(wǎng)認(rèn)為，從利益相關(guān)的角度來說，可能期刊和研究誠信機(jī)構(gòu)更應(yīng)該在這些方面做出努力和嘗試。

但是不管怎么說，這篇文章所構(gòu)建的這種方法可能將是實現(xiàn)針對學(xué)術(shù)文獻(xiàn)中圖片查重漫長而艱辛的征程中的第一步。

科研人員為什么會在學(xué)術(shù)文獻(xiàn)中造假不得而知，但是無論動機(jī)如何，隨著機(jī)器學(xué)習(xí)以及人工智能的發(fā)展，可能做這種行為之前就需要慎重考慮了。

據(jù)《Nature》新聞介紹，Daniel Acuna 他們還沒有公開他們的算法，但已經(jīng)和芝加哥西北大學(xué)研究誠信辦公室主任、美國研究誠信官員聯(lián)合會副主席 Lauran Qualkenbush 進(jìn)行了討論。后者表示：「這對研究誠信辦公室非常有用，我非常希望今年我的辦公室可以成為 Daniel 這項工具的試點單位?！?/p>

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。