0
雷鋒網(wǎng) AI 科技評(píng)論按:本文由「圖普科技」編譯自AI image recognition systems can be tricked by copying and pasting random objects
你并不總是需要構(gòu)建復(fù)雜的算法來(lái)擾亂圖像識(shí)別系統(tǒng)——你只要在隨機(jī)位置添加對(duì)象就行了。
大多數(shù)情況下,可以用對(duì)抗模型更改一些像素以扭曲圖像,從而使目標(biāo)識(shí)別出現(xiàn)錯(cuò)誤。一些例子包括用一張小貼紙讓香蕉圖像秒變烤面包機(jī),或戴傻眼鏡忽悠面部識(shí)別系統(tǒng)。烏龜被誤認(rèn)為是一支步槍的經(jīng)典案例證明了欺騙人工智能是一件多么容易的事情。
然而,約克大學(xué)和加拿大多倫多大學(xué)的研究人員現(xiàn)已證實(shí),將物體圖像復(fù)制并粘貼到原圖像中,就可以誤導(dǎo)神經(jīng)網(wǎng)絡(luò),無(wú)需耍任何花招。
他們利用 Tensorflow 物體識(shí)別 API 中的模型進(jìn)行了一系列實(shí)驗(yàn)。Tensorflow 物體識(shí)別 API 是一個(gè)由 Google 工程師構(gòu)建的開(kāi)源框架,用于執(zhí)行圖像識(shí)別任務(wù)。該 API 是構(gòu)建在 TensorFlow 代碼之上的另一層,描述了卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)。
研究人員從某張圖像中獲取一個(gè)對(duì)象并將其添加到另一圖像的不同位置,然后將這些圖片輸入到 API 中。arXiv 在發(fā)表的論文中將此技術(shù)稱為「目標(biāo)移植(object transplanting)」。
在第一個(gè)例子中,研究人員在一名男性坐在其起居室的圖像中添加了一張大象的圖像。該模型在不同目標(biāo)周邊輸出了一系列彩色邊界框,并計(jì)算了不同目標(biāo)識(shí)別結(jié)果的可能性。它識(shí)別出目標(biāo)是一名人類和筆記本電腦的可能性為99%,椅子為81%,手提袋為67%,書(shū)籍和杯子為50%。
到目前為止該模型的表現(xiàn)還不錯(cuò)。但當(dāng)將大象的圖片添加到同一圖像中時(shí),模型識(shí)別開(kāi)始出現(xiàn)混亂。當(dāng)大象圖片被粘貼在紅色窗簾上時(shí),模型對(duì)于圖中椅子的識(shí)別突然變得不那么自信了,評(píng)級(jí)從81%下降到了76%,但它對(duì)于桌面上有一個(gè)杯子的可能性從50%增加到了54%。
更奇怪的是,當(dāng)大象圖片被直接復(fù)制并粘貼在人的頭頂上時(shí),它被識(shí)別為椅子。當(dāng)將動(dòng)物的圖片粘貼在場(chǎng)景中的不同位置時(shí),它只在兩個(gè)地方被正確識(shí)別:當(dāng)它被放置在筆記本電腦和書(shū)柜的頂部時(shí)。
盡管如此,但該API仍可能正確識(shí)別物體,因?yàn)楹苌俪霈F(xiàn)大象與一些客廳中的常見(jiàn)物品混在一起的圖像?!吧窠?jīng)網(wǎng)絡(luò)從未見(jiàn)過(guò)兩個(gè)不同類別物體在同一圖片中組合,我們不可能指望神經(jīng)網(wǎng)絡(luò)能夠在測(cè)試時(shí)成功處理這類圖像”該論文寫(xiě)道。
但該測(cè)試并不是一個(gè)不公平的測(cè)試,它凸顯了神經(jīng)網(wǎng)絡(luò)的脆弱性,他們無(wú)法輕松適應(yīng)不在其訓(xùn)練數(shù)據(jù)內(nèi)的新圖像。研究人員寫(xiě)道:“我們認(rèn)為要求不同物體類別在訓(xùn)練集中成對(duì)出現(xiàn)是不合理的,無(wú)論是在實(shí)踐還是理論層面。”
當(dāng)該研究團(tuán)隊(duì)復(fù)制圖像中已有的目標(biāo)對(duì)象時(shí),API仍然難以識(shí)別。
該模型可以毫不費(fèi)力地從原圖片中挑選出在顯示器前面的鍵盤(pán)上躺著的貓。然而,當(dāng)在圖片上再添加一張?jiān)撠埖恼掌?,并重新調(diào)整使它看起來(lái)像是直接放在第一只貓后面時(shí),貓的腳掌被識(shí)別為狗,鍵盤(pán)的一角被識(shí)別為一本書(shū)。
該團(tuán)隊(duì)用不同的圖像重復(fù)進(jìn)行了實(shí)驗(yàn),結(jié)果牛頭成了馬,棒球棍成了筆記本電腦,手提包成了杯子 - 你現(xiàn)在明白了吧。
該論文解釋說(shuō),從不屬于真正目標(biāo)區(qū)域內(nèi)的像素中獲取的特征會(huì)使圖像中的物體變得混亂?!皩?duì)于目標(biāo)感興趣區(qū)域ROI內(nèi)部的像素以及ROI之外的像素,都是如此?!?/p>
這是所有圖像分類模型都面臨的難題。它們都是通過(guò)給定區(qū)域上一系列像素的特征來(lái)識(shí)別對(duì)象,但這意味著來(lái)自其他對(duì)象的像素可以與之重疊,從而使它們混淆。
研究人員將此問(wèn)題稱為“局部遮擋”。“局部遮擋被普遍認(rèn)為是物體檢測(cè)面臨的一大挑戰(zhàn)。成功解決局部遮擋問(wèn)題將是實(shí)現(xiàn)泛化的好兆頭。”
“這里生成的圖像可以看作是對(duì)抗樣本的一種變體,其中一些小圖像帶來(lái)的干擾(人類難以察覺(jué))會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果出現(xiàn)大幅度變化,”該論文總結(jié)道。雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。