MIT在讀博士生質(zhì)疑ICLR 2018防御論文很水？Ian Goodfellow跟帖回應(yīng)

本文作者：楊文

編輯：楊曉凡

2018-02-03 22:06

專題：ICLR 2018

導(dǎo)語：關(guān)于一名MIT CS在讀博士生在推特上引發(fā)的爭論.

雷鋒網(wǎng) AI 科技評論：這是一名 MIT CS 在讀博士生在推特上引發(fā)的爭論。

谷歌大腦負(fù)責(zé)人 Jeff Dean 日前在推特上轉(zhuǎn)了一篇名字為 Anish Athalye 的推文，立刻引起了整個機器學(xué)習(xí)學(xué)術(shù)圈的關(guān)注，被譽為「GANs 之父」的 Ian Goodfellow 也接連跟帖回復(fù)。

Anish Athalye：我們研究了 ICLR 論文，結(jié)果并不令人滿意

到底是什么言論驚動了眾多 AI 界大牛，我們先來看看這篇推文：

MIT在讀博士生質(zhì)疑ICLR 2018防御論文很水？Ian Goodfellow跟帖回應(yīng)

防御對抗樣本仍然是一個尚未解決的問題，三天前公布的 ICLR 接收論文里，八篇關(guān)于防御論文里已經(jīng)有七篇被我們攻破。（只有「aleks_madry」等人的論文中提到的方法在攻擊中準(zhǔn)確率保持了 47%，沒有被攻破）

Anish Athalye 也貼出了自己的 GitHub 地址，https://github.com/anishathalye/obfuscated-gradients ，其中有詳細(xì)的說明。

雷鋒網(wǎng)發(fā)現(xiàn)在他的 GitHub 中展示了一個對抗樣本的例子，對一只貓的圖像加入輕微的干擾就可以使分類器 Inceptionv3 判別錯誤，將貓頭像錯認(rèn)為為「果醬」。他稱這樣的「欺騙性圖像」很容易使用梯度下降法生成。

MIT在讀博士生質(zhì)疑ICLR 2018防御論文很水？Ian Goodfellow跟帖回應(yīng)

根據(jù) GitHub 中的介紹，Anish Athalye 等人近期的論文《Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples》（https://arxiv.org/abs/1802.00420 ）研究了 ICLR 2018 收錄的八篇關(guān)于防御的論文中的防御對抗樣本的魯棒性，發(fā)現(xiàn)其中有七種防御魯棒性都很有限，可以通過改進(jìn)的攻擊技術(shù)攻破。

下面是論文中的一個表格，展示了多種對抗性樣本防御方法在攻擊下的魯棒性。（加 * 表示的這些防御方法建議結(jié)合對抗性訓(xùn)練使用）

MIT在讀博士生質(zhì)疑ICLR 2018防御論文很水？Ian Goodfellow跟帖回應(yīng)

根據(jù) Anish Athalye 等人的研究，八篇論文中唯一一篇顯著提高對抗樣本防御的魯棒性的論文是：《Towards Deep Learning Models Resistant to Adversarial Attacks》(即上述表格中的準(zhǔn)確率 47% 那篇）。除了使用威脅模型以外，沒有辦法攻破這種防御。即便如此，這種防御方法也是難以擴展到 ImageNet 規(guī)模的。其余的七篇論文無論是有意還是無意都在依賴于「混淆梯度」。一般的攻擊利用梯度下降法使給定圖像網(wǎng)絡(luò)損失最大化，從而在神經(jīng)網(wǎng)路上產(chǎn)生對抗樣本，這種優(yōu)化方法需要有用的梯度信號才能成功。基于混淆梯度的防御會破壞這種梯度信號，并導(dǎo)致優(yōu)化方法失效。

Anish Athalye 等人定義了三種基于混淆梯度的防御方式，并構(gòu)建了繞過每一種攻擊的方法。新的攻擊方法適用于任何有意的、無意的、包括不可微分操作或以其他方式防止梯度信號流經(jīng)網(wǎng)絡(luò)的任何防御。研究員們希望用此方法進(jìn)行更徹底的安全評估。

《Towards Deep Learning Models Resistant to Adversarial Attacks》
論文摘要
我們意識到「混淆梯度」給防御對抗樣本帶來的是一種虛假的安全感現(xiàn)象，盡管基于混淆梯度的防御可以打敗基于優(yōu)化的攻擊，但我們發(fā)現(xiàn)依靠這種效果的防御仍然可以被攻破。
對于我們發(fā)現(xiàn)的三種混淆梯度類型中的每一種，我們都會描述展示這種效果的防御指標(biāo)，并開發(fā)攻擊技術(shù)來攻破它。在樣本研究中，我們試驗了 ICLR 2018 接收的所有防御措施。我們發(fā)現(xiàn)混淆梯度是常見現(xiàn)象，其中 8 個防御中的 7 個依靠混淆梯度。使用我們新的攻擊技術(shù)，成功攻破了 7 個。
論文地址：https://arxiv.org/abs/1802.00420

Ian Goodfellow：你們其實只研究了一部分論文

Jeff Dean 轉(zhuǎn)發(fā)后，很快引起了整個機器學(xué)習(xí)學(xué)術(shù)圈的注意。難道這是在質(zhì)疑 ICLR 2018 收錄的論文質(zhì)量很水嗎？由于 Anish 的表態(tài)主要是針對對抗性樣本的防御問題，很快便吸引了 GANs 的發(fā)明者、以及長期研究對抗性樣本的 Ian Goodfellow 圍觀，并在推特評論區(qū)接連跟帖回應(yīng)。

MIT在讀博士生質(zhì)疑ICLR 2018防御論文很水？Ian Goodfellow跟帖回應(yīng)