0
本文作者: AI研習(xí)社-譯站 | 2018-06-22 17:38 |
雷鋒網(wǎng)按:這里是,雷鋒字幕組編譯的Two minutes paper專欄,每周帶大家用碎片時(shí)間閱覽前沿技術(shù),了解AI領(lǐng)域的最新研究成果。
原標(biāo)題 One Pixel Attack Defeats Neural Networks | Two Minute Papers #240
翻譯 | 于澤平 字幕 | 凡江 整理 | 李逸凡 吳璇
?每周一篇2分鐘論文視頻解讀
騙過神經(jīng)網(wǎng)絡(luò),我們最少需要改變多少像素(pixel)呢?猜猜是多少,可能你會(huì)覺得,怎么著都要100才夠,但論文證明了,攻擊大多數(shù)神經(jīng)網(wǎng)絡(luò)只需要修改一個(gè)像素就行。
在這篇《One pixel attack for fooling deep neural networks》論文中,研究人員分析了一種在極端限制情形下(只修改一個(gè)像素)的攻擊。他們提出了一種基于差分進(jìn)化(differential evolution)的單像素對(duì)抗干擾新方法。
結(jié)果表明,70.97%的自然圖像至少有一個(gè)分類目標(biāo)會(huì)被干擾,而造成干擾只需要修改置信均值為97.47%的一個(gè)像素。因此,在極端限制情形下,攻擊探索出了不同的對(duì)抗機(jī)器學(xué)習(xí)方法。這也表明當(dāng)前的深度神經(jīng)網(wǎng)絡(luò)也容易受到這類低維攻擊。
神經(jīng)網(wǎng)絡(luò)通常不直接判斷一個(gè)類別,而是通過一些置信值來(lái)判別。置信值代表神經(jīng)網(wǎng)絡(luò)它有多確信看到的是只拉布拉多犬還是一只老虎貓。我們通常對(duì)比所有的置信值,并選出最高的,查看它們使神經(jīng)網(wǎng)絡(luò)對(duì)正確類別的置信值下降了多少,接著我們拋棄效果不好的像素,并繼續(xù)搜索最有希望的像素,我們將這個(gè)過程稱為差異進(jìn)化。
如果這個(gè)過程實(shí)現(xiàn)的很好,最終正確類別的置信值將會(huì)變的很低,因?yàn)樯窠?jīng)網(wǎng)路將能預(yù)測(cè)另一個(gè)類別,一旦發(fā)生這種情況,代表神經(jīng)網(wǎng)絡(luò)成功被欺騙了,這也意味我們需要查看神經(jīng)網(wǎng)路,并獲得其置信值。
當(dāng)然,也有大量關(guān)于訓(xùn)練魯棒性的神經(jīng)網(wǎng)絡(luò)的研究,使這些神經(jīng)網(wǎng)絡(luò)可以承受更多對(duì)抗攻擊,對(duì)抗攻擊有著許多地方值得我們?nèi)ネ诰蛞约疤剿鳌?/p>
論文:https://arxiv.org/abs/1710.08864
Github:https://github.com/Hyperparticle/one-pixel-attack-keras
雷鋒字幕組正在招募中,掃描下方二維碼,備注“雷鋒字幕組+姓名”加入我們。
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。