0
本文作者: 楊文 | 編輯:楊曉凡 | 2018-02-03 22:06 | 專題:ICLR 2018 |
雷鋒網(wǎng) AI 科技評(píng)論:這是一名 MIT CS 在讀博士生在推特上引發(fā)的爭(zhēng)論。
谷歌大腦負(fù)責(zé)人 Jeff Dean 日前在推特上轉(zhuǎn)了一篇名字為 Anish Athalye 的推文,立刻引起了整個(gè)機(jī)器學(xué)習(xí)學(xué)術(shù)圈的關(guān)注,被譽(yù)為「GANs 之父」的 Ian Goodfellow 也接連跟帖回復(fù)。
到底是什么言論驚動(dòng)了眾多 AI 界大牛,我們先來看看這篇推文:
防御對(duì)抗樣本仍然是一個(gè)尚未解決的問題,三天前公布的 ICLR 接收論文里,八篇關(guān)于防御論文里已經(jīng)有七篇被我們攻破。(只有「aleks_madry」等人的論文中提到的方法在攻擊中準(zhǔn)確率保持了 47%,沒有被攻破)
Anish Athalye 也貼出了自己的 GitHub 地址,https://github.com/anishathalye/obfuscated-gradients ,其中有詳細(xì)的說明。
雷鋒網(wǎng)發(fā)現(xiàn)在他的 GitHub 中展示了一個(gè)對(duì)抗樣本的例子,對(duì)一只貓的圖像加入輕微的干擾就可以使分類器 Inceptionv3 判別錯(cuò)誤,將貓頭像錯(cuò)認(rèn)為為「果醬」。他稱這樣的「欺騙性圖像」很容易使用梯度下降法生成。
根據(jù) GitHub 中的介紹,Anish Athalye 等人近期的論文《Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples》(https://arxiv.org/abs/1802.00420 )研究了 ICLR 2018 收錄的八篇關(guān)于防御的論文中的防御對(duì)抗樣本的魯棒性,發(fā)現(xiàn)其中有七種防御魯棒性都很有限,可以通過改進(jìn)的攻擊技術(shù)攻破。
下面是論文中的一個(gè)表格,展示了多種對(duì)抗性樣本防御方法在攻擊下的魯棒性。(加 * 表示的這些防御方法建議結(jié)合對(duì)抗性訓(xùn)練使用)
根據(jù) Anish Athalye 等人的研究,八篇論文中唯一一篇顯著提高對(duì)抗樣本防御的魯棒性的論文是:《Towards Deep Learning Models Resistant to Adversarial Attacks》(即上述表格中的準(zhǔn)確率 47% 那篇)。除了使用威脅模型以外,沒有辦法攻破這種防御。即便如此,這種防御方法也是難以擴(kuò)展到 ImageNet 規(guī)模的。其余的七篇論文無論是有意還是無意都在依賴于「混淆梯度」。一般的攻擊利用梯度下降法使給定圖像網(wǎng)絡(luò)損失最大化,從而在神經(jīng)網(wǎng)路上產(chǎn)生對(duì)抗樣本,這種優(yōu)化方法需要有用的梯度信號(hào)才能成功?;诨煜荻鹊姆烙鶗?huì)破壞這種梯度信號(hào),并導(dǎo)致優(yōu)化方法失效。
Anish Athalye 等人定義了三種基于混淆梯度的防御方式,并構(gòu)建了繞過每一種攻擊的方法。新的攻擊方法適用于任何有意的、無意的、包括不可微分操作或以其他方式防止梯度信號(hào)流經(jīng)網(wǎng)絡(luò)的任何防御。研究員們希望用此方法進(jìn)行更徹底的安全評(píng)估。
《Towards Deep Learning Models Resistant to Adversarial Attacks》
論文摘要
我們意識(shí)到「混淆梯度」給防御對(duì)抗樣本帶來的是一種虛假的安全感現(xiàn)象,盡管基于混淆梯度的防御可以打敗基于優(yōu)化的攻擊,但我們發(fā)現(xiàn)依靠這種效果的防御仍然可以被攻破。
對(duì)于我們發(fā)現(xiàn)的三種混淆梯度類型中的每一種,我們都會(huì)描述展示這種效果的防御指標(biāo),并開發(fā)攻擊技術(shù)來攻破它。在樣本研究中,我們?cè)囼?yàn)了 ICLR 2018 接收的所有防御措施。我們發(fā)現(xiàn)混淆梯度是常見現(xiàn)象,其中 8 個(gè)防御中的 7 個(gè)依靠混淆梯度。使用我們新的攻擊技術(shù),成功攻破了 7 個(gè)。
Jeff Dean 轉(zhuǎn)發(fā)后,很快引起了整個(gè)機(jī)器學(xué)習(xí)學(xué)術(shù)圈的注意。難道這是在質(zhì)疑 ICLR 2018 收錄的論文質(zhì)量很水嗎?由于 Anish 的表態(tài)主要是針對(duì)對(duì)抗性樣本的防御問題,很快便吸引了 GANs 的發(fā)明者、以及長(zhǎng)期研究對(duì)抗性樣本的 Ian Goodfellow 圍觀,并在推特評(píng)論區(qū)接連跟帖回應(yīng)。
Goodfellow 回應(yīng)稱,ICLR 2018實(shí)際上至少收錄有11篇關(guān)于防御的論文,其他三篇沒有提到,卻說只有Madry一篇中提到的方法沒有被攻破,這是不公平的。
Goodfellow:ICRL 實(shí)際上至少有 11 篇防御論文,而不是 8 篇。(另外三篇里,)實(shí)際上有 2 篇已被證明可防御,還有 1 篇他們沒有研究。他們(論文的作者)應(yīng)該說「所有未經(jīng)認(rèn)證的白盒防御」而不是「全部防御」。
另外,Goodfellow 認(rèn)為這篇論文中提出的「混淆梯度」簡(jiǎn)直就像是給「梯度掩碼」換了個(gè)名字而已。為了讓大家對(duì)「梯度掩碼」的概念更加了解,Goodfellow 還推薦了相關(guān)文獻(xiàn)。
與此同時(shí),Goodfellow 還丟出了一篇 ICLR 2018 論文(Goodfellow 是作者之一),稱已經(jīng)專門解決了梯度解碼的問題了。論文題目: Ensemble Adversarial Training: Attacks and Defenses
論文地址:https://arxiv.org/pdf/1705.07204.pdf
不過這一觀點(diǎn)截至目前暫未被發(fā)出這條震驚學(xué)術(shù)圈推文的 Anish Athalye 所承認(rèn)。
雷鋒網(wǎng)報(bào)道
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章