0
雷鋒網(wǎng) AI 科技評(píng)論按:在谷歌大腦做人工智能研究的Ian Goodfellow近日在推特上推薦了一篇關(guān)于防御對(duì)抗性樣本的論文。這篇論文的內(nèi)容剛好與他關(guān)于測(cè)試與驗(yàn)證方法的文章相呼應(yīng),可謂是對(duì)他提出的機(jī)器學(xué)習(xí)模型安全性堪憂觀點(diǎn)的實(shí)證。
雷鋒網(wǎng)了解到,這篇論文的名字為為「Adversarial Example Defenses: Ensembles of Weak Defenses are not Strong」,“防御對(duì)抗性樣本:弱的防御方式組合起來也不強(qiáng)”,來自UC伯克利大學(xué)。論文關(guān)注的是機(jī)器學(xué)習(xí)模型面對(duì)攻擊性數(shù)據(jù)時(shí)的防御表現(xiàn),也就是模型的魯棒性。論文中用生成式的方法修改MNIST和CIFAR-10中的圖片,形成對(duì)抗性的樣本,目的是讓分類器對(duì)修改后的樣本產(chǎn)生誤判,借此對(duì)分類器的所用防御方法的效果進(jìn)行評(píng)價(jià)。
論文中測(cè)試了五種不同的防御方式
單獨(dú)使用降低色深方法(color-depth-reduction defense,能夠減少對(duì)大量像素的微小改動(dòng),是效果較弱的特征壓縮方法)
單獨(dú)使用空間平滑方法(spatial smoothing,能夠減少對(duì)少量像素的大幅改動(dòng),是效果較弱的特征壓縮方法)
降低色深和空間平滑這兩者的組合(“combination of multiple squeezing techniques”,標(biāo)題所指的“弱的防御方式的組合”)
使用一組專用識(shí)別器,對(duì)分類后的圖像再次檢測(cè)攻擊性;如果其中有識(shí)別器檢測(cè)到其對(duì)應(yīng)的攻擊性特征,就可以通過對(duì)分類結(jié)果的置信度體現(xiàn)出來(“ensemble of specialists”)
使用三種對(duì)抗性攻擊檢測(cè)器的組合(“ensemble of detectors”,三種檢測(cè)器分別為Gong、Metzen和Feinman)。
下面幾張圖展示的就是測(cè)試結(jié)果。第一行是原始圖像,通過生成模型修改出的能夠使分類器錯(cuò)誤分類的攻擊圖像在第二行。
降低色深法防御CIFAR-10圖像(左),空間平滑法防御MNIST圖像(右)
空間平滑法防御CIFAR-10圖像(左),降低色深和空間平滑組合防御MNIST圖像(右)
降低色深和空間平滑組合防御CIFAR-10圖像(左),專用識(shí)別器防御MNIST圖像(右)
可以直觀地看到,四種防御方式的效果都非常有限,每一組中的第二行圖片只有不大的改動(dòng),就已經(jīng)可以導(dǎo)致分類器對(duì)樣本的誤判。由于MNIST圖像比較簡(jiǎn)單,對(duì)于幾種防御方式,對(duì)抗性處理帶來的失真許多時(shí)候已經(jīng)可以看得出來;但CIFAR-10的圖像來說,能夠騙過分類器的變化仍然都是人眼察覺不到的。
為了量化比較,他們也用把對(duì)抗性處理帶來的失真(distortion)進(jìn)行了數(shù)值化,雖然幾種方法都不理想,但是所需的失真數(shù)量確實(shí)還是有所區(qū)別,能夠反映防御能力的高低。
對(duì)于第五種防御方法,論文中還選取了另一種指標(biāo),就是自適應(yīng)的攻擊圖片生成器除了能夠騙過它本來目標(biāo)的檢測(cè)器之外(為了三種中的一種生成一張攻擊圖片,成功率輕松達(dá)到100%),能否同樣輕松地騙過沒有作為目標(biāo)的檢測(cè)器。結(jié)果是為騙Metzen生成的圖片(作為source)最容易同樣騙過另外兩種(作為target),而為Feinman生成的就要差一點(diǎn)。
第五種防御方法里,三種檢測(cè)器的交叉測(cè)試結(jié)果
總的來說,現(xiàn)有結(jié)果表明弱防御方式的組合并不能顯著提高系統(tǒng)的魯棒性,想要找到能夠高效防御對(duì)抗性樣本的方法還有很長的路要走。
論文中也介紹了他們?cè)谏晒魣D像過程中的收獲:1. 評(píng)估防御能力的時(shí)候要想辦法生成比較強(qiáng)的攻擊圖像,最好不要用FGSM這樣圖快的方法;2. 評(píng)估防御能力的時(shí)候最好用自適應(yīng)性的攻擊圖像生成器,這樣對(duì)于攻擊者知道防御手段的情況也能夠提高安全性。
雷鋒網(wǎng) AI 科技評(píng)論也會(huì)對(duì)機(jī)器學(xué)習(xí)模型的安全性和隱私保護(hù)問題持續(xù)給予關(guān)注,請(qǐng)關(guān)注更多后續(xù)文章。
論文地址:https://arxiv.org/abs/1706.04701
相關(guān)文章:
Ian Goodfellow與ICLR 17最佳論文得主新作:驗(yàn)證與測(cè)試,機(jī)器學(xué)習(xí)的兩大挑戰(zhàn)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。