慘遭下架后，MIT再爆知名數(shù)據(jù)集ImageNet存在系統(tǒng)性Bug，禍端還是WordNet

本文作者：貝爽

2020-07-18 17:39

導(dǎo)語：近億級(jí)數(shù)據(jù)集ImageNet也淪陷

近日，麻省理工學(xué)院研究團(tuán)隊(duì)發(fā)表了一篇論文指控知名數(shù)據(jù)集ImageNet存在系統(tǒng)性Bug，該論文還被國(guó)際機(jī)器學(xué)習(xí)大會(huì)ICML2020接收。

同時(shí)，這篇論文名為《From ImageNet to Image Classification: Contextualizing Progress on Benchmarks》，也發(fā)表在了在預(yù)印論庫arXiv上。

慘遭下架后，MIT再爆知名數(shù)據(jù)集ImageNet存在系統(tǒng)性Bug，禍端還是WordNet

麻省理工研究團(tuán)隊(duì)之所以在ICML大會(huì)上介紹這項(xiàng)研究，是因?yàn)榻谙萑氲摹?strong>Tiny Images”爭(zhēng)議事件。

就在本月初，麻省理工學(xué)院（MIT）宣布永久刪除了包含8000萬張圖像的Tiny Images數(shù)據(jù)集，并公開表示歉意。其原因是，有關(guān)研究人員發(fā)表了一篇論文指控Tiny ImageNet數(shù)據(jù)集存在多項(xiàng)危險(xiǎn)標(biāo)簽，包括種族歧視、性別歧視、色情內(nèi)容等，而且指控有理有據(jù)。

論文中表明，ImageNet在語義結(jié)構(gòu)分析上，使用的WordNet名詞，它包含了種族歧視等危險(xiǎn)內(nèi)容，同時(shí)，由于圖像過小，數(shù)據(jù)量過大，并未手動(dòng)對(duì)圖像標(biāo)簽進(jìn)行逐一核對(duì)，由此導(dǎo)致了問題的出現(xiàn)。

眾所周知，知名數(shù)據(jù)集ImageNet也使用了WordNet用于語義結(jié)構(gòu)分析，那么，ImageNet數(shù)據(jù)集是否也存在同樣的問題？對(duì)此，麻省理工研究團(tuán)隊(duì)給出了答案。

ImageNet基準(zhǔn)測(cè)試與實(shí)際不符

大規(guī)模ImageNet數(shù)據(jù)集的出現(xiàn)，可以說意味著機(jī)器學(xué)習(xí)深度變革的一個(gè)新起點(diǎn)。2009年，李飛飛領(lǐng)銜的研究團(tuán)隊(duì)在計(jì)算機(jī)視覺與識(shí)別模式大會(huì)（CVPR）上首次推出ImageNet，ImageNet數(shù)據(jù)集包含10000個(gè)分類，超過一百萬個(gè)圖像，數(shù)據(jù)量之大是此從未有過的。

正是因數(shù)據(jù)量大、質(zhì)量高，ImageNet數(shù)據(jù)集被廣泛用于預(yù)訓(xùn)練和基準(zhǔn)測(cè)試。但是，麻省理工研究團(tuán)隊(duì)在最近的研究中卻指出：

ImageNet存在明顯的“系統(tǒng)標(biāo)注問題”，導(dǎo)致其用作基準(zhǔn)數(shù)據(jù)集時(shí)與實(shí)際情況并不一致。

他們發(fā)現(xiàn)，ImageNet數(shù)據(jù)集中大約有20%的圖像包含兩個(gè)或更多的對(duì)象目標(biāo)。

慘遭下架后，MIT再爆知名數(shù)據(jù)集ImageNet存在系統(tǒng)性Bug，禍端還是WordNet

在通過對(duì)多個(gè)目標(biāo)識(shí)別模型進(jìn)行分析后，數(shù)據(jù)表明包含多個(gè)對(duì)象目標(biāo)的照片會(huì)導(dǎo)致總體基準(zhǔn)的準(zhǔn)確性下降10%。

慘遭下架后，MIT再爆知名數(shù)據(jù)集ImageNet存在系統(tǒng)性Bug，禍端還是WordNet

簡(jiǎn)單舉個(gè)栗子：假如此圖是ImageNet數(shù)據(jù)集中的一張高清圖像，我們可以看到圖片中不止包含了一個(gè)對(duì)象目標(biāo)，有女孩、吉他和唱麥，而且圖片的主目標(biāo)應(yīng)該是女孩。

慘遭下架后，MIT再爆知名數(shù)據(jù)集ImageNet存在系統(tǒng)性Bug，禍端還是WordNet

但I(xiàn)mageNet的數(shù)據(jù)標(biāo)簽可能不是女孩，也可能是唱麥或者吉他，重要的是ImageNet只會(huì)標(biāo)注一個(gè)標(biāo)簽，而這樣就可能會(huì)導(dǎo)致ImageNet在目標(biāo)識(shí)別中出現(xiàn)失誤。

研究人員在論文中表明，

“總體而言，單個(gè)ImageNet標(biāo)簽可能不能總是捕獲到ImageNet圖像的主要表物體目標(biāo)。但是，當(dāng)我們進(jìn)行培訓(xùn)和評(píng)估時(shí)，卻將標(biāo)簽視為圖像的根本事實(shí)，因此，這可能會(huì)導(dǎo)致ImageNet基準(zhǔn)測(cè)試與現(xiàn)實(shí)世界中的對(duì)象識(shí)別任務(wù)之間出現(xiàn)不一致，而且這在模型執(zhí)行和評(píng)估性能方面都是如此?！?br/>

看到這里你可能會(huì)疑惑，為什么不能準(zhǔn)確對(duì)圖像進(jìn)行標(biāo)記？其實(shí)問題的關(guān)鍵在于ImageNet所使用的標(biāo)記工具WorldNet。

WordNet名詞標(biāo)記是關(guān)鍵

WordNet在1980年代由George Armitage Miller創(chuàng)立，被廣泛用于數(shù)據(jù)集的收集和標(biāo)記過程。簡(jiǎn)單的理解，ImageNet會(huì)根據(jù)WorldNet提供的名詞和它的語義層次結(jié)構(gòu)，在搜索引擎或者Flickr之類的網(wǎng)站進(jìn)行圖像搜索，作為數(shù)據(jù)集的初始來源。

當(dāng)WordNet提供一個(gè)名詞后，根據(jù)它設(shè)定的語音層次結(jié)構(gòu)，ImageNet需要對(duì)該名詞的父類節(jié)點(diǎn)同義詞進(jìn)行擴(kuò)充，并以此作為搜索的關(guān)鍵詞。比如“ whippet”分類名詞（父類節(jié)點(diǎn)為：“dog”）的搜索還會(huì)包括“ whippet dog” 。

這類似于我們經(jīng)?？吹降摹跋嚓P(guān)搜索”。為了進(jìn)一步擴(kuò)展圖像池，數(shù)據(jù)集創(chuàng)建者還會(huì)使用多種語言進(jìn)行了搜索。

但這里的重點(diǎn)是，對(duì)于每個(gè)檢索到的圖像已經(jīng)確定了標(biāo)簽，如果該標(biāo)簽包含在數(shù)據(jù)集中，則將分配給該圖像。也就是說，標(biāo)簽僅由用于相應(yīng)搜索查詢的WordNet節(jié)點(diǎn)給出。

而在這一過程中，WordNet的語義結(jié)構(gòu)會(huì)將非主要目標(biāo)的圖像納入數(shù)據(jù)集中，進(jìn)而出現(xiàn)上文提到標(biāo)記偏差。如論文中的數(shù)據(jù)顯示，同一分類標(biāo)簽卻出現(xiàn)了不同的物體目標(biāo)。（如圖）

慘遭下架后，MIT再爆知名數(shù)據(jù)集ImageNet存在系統(tǒng)性Bug，禍端還是WordNet

既然如此，那為什么WordNet名詞還能夠廣泛應(yīng)用于數(shù)據(jù)集創(chuàng)建過程中呢？

一方面是因?yàn)閃orldNet可以完成大量數(shù)據(jù)的自動(dòng)標(biāo)記工作。我們知道，所有數(shù)據(jù)集在使用前都要先完成標(biāo)記任務(wù)，而一個(gè)優(yōu)秀的數(shù)據(jù)集規(guī)模又是很大的，如果全部手動(dòng)標(biāo)記，難度非常高，而WorldNet卻可以很好的解決這一問題。

另一方面對(duì)于ImageNet而言，WordNet獲取的只是初始數(shù)據(jù)標(biāo)簽，其準(zhǔn)確性還需要通過相關(guān)模型進(jìn)行再次驗(yàn)證。總體來講，ImageNet數(shù)據(jù)集的創(chuàng)建過程，分為自動(dòng)圖像收集（automated data collection）和眾包過濾（crowd-sourced filtering）兩個(gè)階段，而眾包過濾就是所謂的審核階段，它分為以下5個(gè)步驟：

慘遭下架后，MIT再爆知名數(shù)據(jù)集ImageNet存在系統(tǒng)性Bug，禍端還是WordNet

潛在標(biāo)簽（Candidate Labels）：通過現(xiàn)有ImageNet圖像標(biāo)簽與模型預(yù)測(cè)的前5個(gè)標(biāo)簽進(jìn)行組合，獲得每張圖像的潛在標(biāo)簽。
選擇高頻率標(biāo)簽（Selection Frequency）：通過Mechanical Turk（MTurk）平臺(tái)，將潛在標(biāo)簽與注釋內(nèi)容對(duì)比，經(jīng)過反復(fù)過濾循環(huán)后，出現(xiàn)頻率最高的為最佳標(biāo)簽（一般少于5個(gè)）。
CLASSIFY任務(wù)：給獲得的少量多標(biāo)簽（Multiple labels）重新定義一組新的注釋內(nèi)容，根據(jù)注釋信息為不同對(duì)象賦予標(biāo)簽，并確定一個(gè)主要對(duì)象的標(biāo)簽，這個(gè)過程稱為CLASSIFY。
對(duì)象注釋（Object Annotation）：匯總以上訓(xùn)練后，獲得更為細(xì)粒度的圖像注釋；

與原始ImageNet標(biāo)簽相比，經(jīng)過眾包過濾后生成的注釋能夠以更細(xì)粒度的方式表征圖像的內(nèi)容，但研究者發(fā)現(xiàn)，這些注釋內(nèi)容可能并沒有達(dá)到期待的效果，如下圖，CONTAINS任務(wù)會(huì)選擇多個(gè)標(biāo)簽對(duì)圖像有效，而對(duì)于70%的圖像而言，注釋選擇的標(biāo)簽頻率至少是ImageNet的原始標(biāo)簽的一半。

慘遭下架后，MIT再爆知名數(shù)據(jù)集ImageNet存在系統(tǒng)性Bug，禍端還是WordNet 而且下圖表明，盡管只感知到單個(gè)對(duì)象，它們也經(jīng)常會(huì)選擇多達(dá)10個(gè)類別標(biāo)簽。因此，對(duì)于單一目標(biāo)的圖像，ImageNet驗(yàn)證過程也無法得到準(zhǔn)確的標(biāo)簽。

慘遭下架后，MIT再爆知名數(shù)據(jù)集ImageNet存在系統(tǒng)性Bug，禍端還是WordNet

因此，可以說圖像標(biāo)簽在很大程度上依然取決于自動(dòng)檢索（WorldNet）過程，同時(shí)眾包過濾的審查過程還有很大的提升空間。

對(duì)于未來如何優(yōu)化數(shù)據(jù)集的創(chuàng)建任務(wù)，研究人員在論文中表明，我們認(rèn)為開發(fā)注釋流程，尤其是審查階段以更好地捕獲基本事實(shí)，同時(shí)保持可擴(kuò)展性是未來研究的重要途徑?！?/p>

涉嫌種族歧視，大規(guī)模數(shù)據(jù)集爭(zhēng)議不斷

作為人工智能技術(shù)的基礎(chǔ)，數(shù)據(jù)集在諸多研究領(lǐng)域都有著廣泛的使用場(chǎng)景，尤其是在計(jì)算機(jī)視覺領(lǐng)域。近些年，因數(shù)據(jù)集的使用引發(fā)的隱私泄露、種族歧視等問題接連不斷，導(dǎo)致人工智能技術(shù)的發(fā)展備受爭(zhēng)議。

除了近期麻省理工學(xué)院因涉嫌種族歧視而刪除了包含8000張圖像的Tiny Image數(shù)據(jù)外，此前，一款圖像修復(fù)算法PULSE，在學(xué)術(shù)圈同樣引起軒然大波。有網(wǎng)友發(fā)現(xiàn)，PULSE在修復(fù)馬賽克圖像時(shí)，將奧巴馬的人臉圖像變成了高分辨率的白人，這一事件引起了黑人網(wǎng)友的不滿。

對(duì)此，2018年的圖靈獎(jiǎng)得主Lecun發(fā)表Twitter稱，訓(xùn)練結(jié)果存在種族偏見，是因?yàn)閿?shù)據(jù)集本身帶有偏見，工程師在使用過程中應(yīng)該注意這一點(diǎn)。

今年因數(shù)據(jù)集而引發(fā)種族歧視事件頗多，而解決這些數(shù)據(jù)集爭(zhēng)議，無非是從數(shù)據(jù)收集和標(biāo)記階段進(jìn)行改進(jìn)。研究人員稱，對(duì)于大型數(shù)據(jù)集，理想的方法是按指定目標(biāo)在全世界范圍內(nèi)收集圖像，并讓專家按確切類別進(jìn)行手動(dòng)篩選和標(biāo)記。這里需要注意的是，非專家的人工標(biāo)記也可能出現(xiàn)錯(cuò)誤。

但從當(dāng)前來看，這種方法非常不切實(shí)際。事實(shí)上，諸如ImageNet此類數(shù)據(jù)集均是從互聯(lián)網(wǎng)搜索引擎抓取的圖像，質(zhì)量參差不齊，而圖像審查不夠嚴(yán)謹(jǐn)。同時(shí)大量數(shù)據(jù)的專家手動(dòng)標(biāo)記也很難實(shí)現(xiàn)。不過，如本次研究所稱，可以通過技術(shù)進(jìn)一步改善圖像自動(dòng)審查的過程來提高數(shù)據(jù)集的質(zhì)量。

此外，目前學(xué)術(shù)界已經(jīng)越來越關(guān)注數(shù)據(jù)集相關(guān)缺陷問題，在本月初計(jì)算機(jī)語言協(xié)會(huì)（ACL）還重點(diǎn)討論了這一問題。

引用鏈接：雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

https://arxiv.org/abs/2005.11295

https://arxiv.org/pdf/2005.11295.pdf

https://venturebeat.com/2020/07/15/mit-researchers-find-systematic-shortcomings-in-imagenet-data-set/

https://venturebeat.com/2020/07/01/mit-takes-down-80-million-tiny-images-data-set-due-to-racist-and-offensive-content/

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章