0
雷鋒網(wǎng) AI 科技評論按:本文由「圖普科技」編譯自AI image recognition systems can be tricked by copying and pasting random objects
你并不總是需要構(gòu)建復雜的算法來擾亂圖像識別系統(tǒng)——你只要在隨機位置添加對象就行了。
大多數(shù)情況下,可以用對抗模型更改一些像素以扭曲圖像,從而使目標識別出現(xiàn)錯誤。一些例子包括用一張小貼紙讓香蕉圖像秒變烤面包機,或戴傻眼鏡忽悠面部識別系統(tǒng)。烏龜被誤認為是一支步槍的經(jīng)典案例證明了欺騙人工智能是一件多么容易的事情。
然而,約克大學和加拿大多倫多大學的研究人員現(xiàn)已證實,將物體圖像復制并粘貼到原圖像中,就可以誤導神經(jīng)網(wǎng)絡,無需耍任何花招。
他們利用 Tensorflow 物體識別 API 中的模型進行了一系列實驗。Tensorflow 物體識別 API 是一個由 Google 工程師構(gòu)建的開源框架,用于執(zhí)行圖像識別任務。該 API 是構(gòu)建在 TensorFlow 代碼之上的另一層,描述了卷積神經(jīng)網(wǎng)絡的架構(gòu)。
研究人員從某張圖像中獲取一個對象并將其添加到另一圖像的不同位置,然后將這些圖片輸入到 API 中。arXiv 在發(fā)表的論文中將此技術(shù)稱為「目標移植(object transplanting)」。
在第一個例子中,研究人員在一名男性坐在其起居室的圖像中添加了一張大象的圖像。該模型在不同目標周邊輸出了一系列彩色邊界框,并計算了不同目標識別結(jié)果的可能性。它識別出目標是一名人類和筆記本電腦的可能性為99%,椅子為81%,手提袋為67%,書籍和杯子為50%。
到目前為止該模型的表現(xiàn)還不錯。但當將大象的圖片添加到同一圖像中時,模型識別開始出現(xiàn)混亂。當大象圖片被粘貼在紅色窗簾上時,模型對于圖中椅子的識別突然變得不那么自信了,評級從81%下降到了76%,但它對于桌面上有一個杯子的可能性從50%增加到了54%。
更奇怪的是,當大象圖片被直接復制并粘貼在人的頭頂上時,它被識別為椅子。當將動物的圖片粘貼在場景中的不同位置時,它只在兩個地方被正確識別:當它被放置在筆記本電腦和書柜的頂部時。
盡管如此,但該API仍可能正確識別物體,因為很少出現(xiàn)大象與一些客廳中的常見物品混在一起的圖像。“神經(jīng)網(wǎng)絡從未見過兩個不同類別物體在同一圖片中組合,我們不可能指望神經(jīng)網(wǎng)絡能夠在測試時成功處理這類圖像”該論文寫道。
但該測試并不是一個不公平的測試,它凸顯了神經(jīng)網(wǎng)絡的脆弱性,他們無法輕松適應不在其訓練數(shù)據(jù)內(nèi)的新圖像。研究人員寫道:“我們認為要求不同物體類別在訓練集中成對出現(xiàn)是不合理的,無論是在實踐還是理論層面?!?/p>
當該研究團隊復制圖像中已有的目標對象時,API仍然難以識別。
該模型可以毫不費力地從原圖片中挑選出在顯示器前面的鍵盤上躺著的貓。然而,當在圖片上再添加一張該貓的照片,并重新調(diào)整使它看起來像是直接放在第一只貓后面時,貓的腳掌被識別為狗,鍵盤的一角被識別為一本書。
該團隊用不同的圖像重復進行了實驗,結(jié)果牛頭成了馬,棒球棍成了筆記本電腦,手提包成了杯子 - 你現(xiàn)在明白了吧。
該論文解釋說,從不屬于真正目標區(qū)域內(nèi)的像素中獲取的特征會使圖像中的物體變得混亂。“對于目標感興趣區(qū)域ROI內(nèi)部的像素以及ROI之外的像素,都是如此?!?/p>
這是所有圖像分類模型都面臨的難題。它們都是通過給定區(qū)域上一系列像素的特征來識別對象,但這意味著來自其他對象的像素可以與之重疊,從而使它們混淆。
研究人員將此問題稱為“局部遮擋”?!熬植空趽醣黄毡檎J為是物體檢測面臨的一大挑戰(zhàn)。成功解決局部遮擋問題將是實現(xiàn)泛化的好兆頭。”
“這里生成的圖像可以看作是對抗樣本的一種變體,其中一些小圖像帶來的干擾(人類難以察覺)會導致神經(jīng)網(wǎng)絡的輸出結(jié)果出現(xiàn)大幅度變化,”該論文總結(jié)道。雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。