機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中

本文作者：逸炫

2016-07-28 16:22

導(dǎo)語(yǔ)：從一些方面看，機(jī)器視覺(jué)比人類視覺(jué)更好。但是研究人員找到了能夠輕松“愚弄”機(jī)器視覺(jué)的’對(duì)抗性圖像’

“從一些方面看，機(jī)器視覺(jué)比人類視覺(jué)更好。但是現(xiàn)在研究人員找到了一類能夠輕松‘愚弄’機(jī)器視覺(jué)的‘對(duì)抗性圖像’?！啊獊?lái)自arXiv的Emerging Technology。

現(xiàn)代科學(xué)最了不起的進(jìn)步之一就是機(jī)器視覺(jué)的興起。最近幾年，新一代機(jī)器學(xué)習(xí)技術(shù)已經(jīng)改變了計(jì)算機(jī)“看見(jiàn)”世界的方式。

現(xiàn)在，機(jī)器在人臉識(shí)別和物品識(shí)別方面已經(jīng)超越了人類，并將改變無(wú)數(shù)基于視覺(jué)的任務(wù)，例如駕駛、安全監(jiān)控等等。機(jī)器視覺(jué)現(xiàn)在簡(jiǎn)直是超人。

但是有一個(gè)問(wèn)題出現(xiàn)了。機(jī)器視覺(jué)研究人員已經(jīng)注意到，這項(xiàng)新技術(shù)有一些讓人擔(dān)心的弱點(diǎn)。實(shí)際上，機(jī)器視覺(jué)算法有一個(gè)阿基里斯之踵，使它們被一些經(jīng)過(guò)微擾的圖像捉弄，而這些圖像對(duì)于人類來(lái)說(shuō)非常淺顯易見(jiàn)。

這些經(jīng)過(guò)修改的圖像被稱為“對(duì)抗性圖像，成為一種重要的威脅?！霸谌四樧R(shí)別領(lǐng)域，一個(gè)對(duì)抗性例子可能由臉部非常細(xì)微的標(biāo)記構(gòu)成，因此人會(huì)正確識(shí)別出圖像中的身份，而機(jī)器學(xué)習(xí)系統(tǒng)會(huì)將其識(shí)別為一個(gè)不同的人?！惫雀鐱rain的Alexey Kurakin、Samy Bengio以及非營(yíng)利機(jī)構(gòu)OpenAI的Ian Goodfellow說(shuō)。

他們?cè)谡撐闹蟹Q，這種對(duì)抗性攻擊除了能影響完全在計(jì)算機(jī)中運(yùn)行的系統(tǒng)，例如逃避垃圾郵件過(guò)濾器或病毒軟件監(jiān)測(cè)器，還能影響在物理世界中運(yùn)行的系統(tǒng)，例如通過(guò)攝像頭及其他傳感器感知世界的機(jī)器人、視頻監(jiān)控系統(tǒng)以及圖像和聲音分類的移動(dòng)應(yīng)用。

因?yàn)闄C(jī)器視覺(jué)還非常新，我們對(duì)于對(duì)抗性圖像還知之甚少。沒(méi)人知道如何最好地創(chuàng)造它們、如何用它們來(lái)愚弄機(jī)器視覺(jué)系統(tǒng)、或者如何預(yù)防此類攻擊。

現(xiàn)在，Kurakin及同事的研究開(kāi)始改變這一現(xiàn)狀，他們對(duì)對(duì)抗性圖像首次展開(kāi)了系統(tǒng)研究。他們的研究說(shuō)明了機(jī)器視覺(jué)系統(tǒng)在此類攻擊之下多么脆弱。

團(tuán)隊(duì)開(kāi)始使用了一個(gè)機(jī)器視覺(jué)研究的標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)，名叫 ImageNet。這個(gè)數(shù)據(jù)庫(kù)的圖像根據(jù)顯示的內(nèi)容進(jìn)行分類。一個(gè)標(biāo)準(zhǔn)測(cè)試是基于這個(gè)數(shù)據(jù)庫(kù)的一部分來(lái)訓(xùn)練一個(gè)機(jī)器視覺(jué)算法，然后利用數(shù)據(jù)庫(kù)的另一個(gè)部分來(lái)測(cè)試算法能否良好進(jìn)行分類。

測(cè)試表現(xiàn)的測(cè)量方法是統(tǒng)計(jì)算法中最高五項(xiàng)回答、甚至最高一項(xiàng)回答中正確分類的頻率（被稱為前五準(zhǔn)確率和前一準(zhǔn)確率），或者中前五項(xiàng)或一項(xiàng)中回答不正確的頻率（其前五錯(cuò)誤率或者前一錯(cuò)誤率）。

最好的機(jī)器視覺(jué)系統(tǒng)之一是谷歌的 Inception v3 算法，其前五錯(cuò)誤率為3.46%。進(jìn)行同樣任務(wù)的人類的前五錯(cuò)誤率為大約5%，因此 Inception v3 確實(shí)具有超人般的能力。

Kurakin和同事通過(guò)3種不同的方式修改了50,000張 ImageNet 的圖像，從而創(chuàng)造了一個(gè)對(duì)抗性圖像的數(shù)據(jù)庫(kù)。他們的方法是基于這個(gè)概念：神經(jīng)網(wǎng)絡(luò)處理信息，來(lái)將一個(gè)圖像與某個(gè)類別匹配起來(lái)。這項(xiàng)處理所需的信息量被稱為交叉熵，會(huì)體現(xiàn)出匹配任務(wù)的難度。

他們的第一個(gè)算法對(duì)圖像進(jìn)行了一個(gè)小改變，試圖最大化這項(xiàng)交叉熵。他們的第二個(gè)算法只是將這個(gè)過(guò)程迭代，進(jìn)一步改變圖像。

這兩項(xiàng)算法都改變了圖像，使其更難正確分類。“這些方法可以造成一些比較無(wú)聊的錯(cuò)誤分類，例如將一種雪橇狗錯(cuò)認(rèn)為另一種雪橇狗?！?/p>

他們最終的算法有更聰明的方法。這種對(duì)圖像的改變讓機(jī)器視覺(jué)系統(tǒng)出現(xiàn)某種特定分類錯(cuò)誤，更傾向于最不可能的類別?！白畈豢赡艿姆诸愅ǔＪ桥c正確分類非常不同的，因此這項(xiàng)方法會(huì)造成更有趣的錯(cuò)誤，例如將一只狗錯(cuò)認(rèn)為一架飛機(jī)?！?Kurakin 及同事說(shuō)。

然后，他們測(cè)試了谷歌 Inception v3 算法能否良好分類50,000個(gè)對(duì)抗性圖像。

這兩個(gè)簡(jiǎn)單的算法大大降低了前五和前一精確度。但是他們最強(qiáng)大的算法——最不可能的分類法——將所有50,000個(gè)圖像的精確度迅速減少至零。（團(tuán)隊(duì)未透露算法在指引錯(cuò)誤分類方面是否成功。）

這意味著對(duì)抗性圖像是一個(gè)重要威脅，但是這種方法也有一種潛在的弱點(diǎn)。所有對(duì)抗性圖像都是直接輸入機(jī)器視覺(jué)系統(tǒng)的。

但是在真實(shí)世界中，圖像總是經(jīng)過(guò)攝像頭系統(tǒng)的改變。如果這項(xiàng)過(guò)程中和了其效果，一個(gè)對(duì)抗性圖像算法就是無(wú)用的。因此，弄清楚算法如何應(yīng)對(duì)真實(shí)世界的改變就非常重要。

為了測(cè)試，Kurakin 和同事講所有對(duì)抗性圖像和原始圖像打印出來(lái)，并手動(dòng)用一個(gè) Nexus 5 智能手機(jī)進(jìn)行拍照。然后，再將這些經(jīng)過(guò)轉(zhuǎn)變的對(duì)抗性圖像輸入機(jī)器視覺(jué)系統(tǒng)。

Kurakin 和同事說(shuō)最不可能類別方法受到這些轉(zhuǎn)變的影響最大，不過(guò)其他方法的承受度都還可以。換句話說(shuō)，對(duì)抗性圖像算法在真實(shí)世界中的確是一種威脅?！昂艽笠徊糠钟迷瓌?chuàng)網(wǎng)絡(luò)制造的對(duì)抗性圖像被錯(cuò)誤分類了，即便是通過(guò)攝像頭輸入分類器。”團(tuán)隊(duì)稱。

這項(xiàng)研究非常有趣，對(duì)于機(jī)器視覺(jué)的阿基里斯之踵帶來(lái)了新的認(rèn)識(shí)。并且未來(lái)還有很多研究要做。Kurakin 和同事希望針對(duì)其他類型的視覺(jué)系統(tǒng)開(kāi)發(fā)對(duì)抗性圖像，使其更加高效。

這在計(jì)算機(jī)安全領(lǐng)域會(huì)引發(fā)討論。機(jī)器視覺(jué)系統(tǒng)現(xiàn)在比人類更能夠識(shí)別人臉，因此很自然我們會(huì)想到在更多的領(lǐng)域使用該技術(shù)，從解鎖智能手機(jī)和家門(mén)，到護(hù)照管控以及銀行賬號(hào)的身份信息。但是 Kurakin 和同事提出了輕松“愚弄”這些系統(tǒng)的可能性。

最近幾年，我們經(jīng)常聽(tīng)到機(jī)器視覺(jué)系統(tǒng)能有多好?，F(xiàn)在，我們才發(fā)現(xiàn)他們還有蠢蠢的阿基里斯之踵。

在此，雷鋒網(wǎng)為大家分享來(lái)自谷歌Brain和 OpenAI 科學(xué)家、名為《物理世界中的對(duì)抗性例子》論文全文。

摘要

大部分現(xiàn)有的機(jī)器學(xué)習(xí)分類器都很容易受到對(duì)抗性例子的影響。一個(gè)對(duì)抗性例子是一個(gè)輸入數(shù)據(jù)樣本，經(jīng)過(guò)了某種微擾，目的是使機(jī)器學(xué)習(xí)分類器錯(cuò)誤分類。在很多情況下，這些微擾會(huì)非常微小，以至于人類觀察者可能根本不會(huì)留意到這些變化，而分類器仍然會(huì)犯錯(cuò)。對(duì)抗性例子會(huì)引發(fā)安全顧慮，因?yàn)樗鼈兛梢员挥糜诠魴C(jī)器學(xué)習(xí)系統(tǒng)，即便是對(duì)抗性不涉及底層模型。目前為止，所有之前的研究都假設(shè)了一個(gè)威脅模型，其中對(duì)抗性能將數(shù)據(jù)直接輸入機(jī)器學(xué)習(xí)分類器。然而對(duì)于在物理世界中運(yùn)行的系統(tǒng)來(lái)說(shuō)并不總是這樣的，例如那些使用攝像頭或其他傳感器的信號(hào)作為輸入的系統(tǒng)。這篇論文顯示了即便是在這樣的物理世界情景中，機(jī)器學(xué)習(xí)系統(tǒng)也會(huì)受到對(duì)抗性例子的影響。我們證明這一點(diǎn)的方法是，將從手機(jī)攝像頭中獲得的對(duì)抗性圖像輸入一個(gè) ImageNet Inception 分類器，并測(cè)量系統(tǒng)的分類精度。我們發(fā)現(xiàn)，很大一部分對(duì)抗性例子被錯(cuò)誤分類了，即便是從攝像頭中獲得的圖像。

1、簡(jiǎn)介

最近機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)方面的進(jìn)展讓研究人員能夠解決多個(gè)重要的實(shí)際問(wèn)題，例如圖像、視頻、文字分類及其他（Krizhevsky et al., 2012; Hinton et al., 2012; Bahdanau et al., 2015)。

但是，機(jī)器學(xué)習(xí)模型經(jīng)常受到其系統(tǒng)輸入中對(duì)抗性操作的影響，目的是引發(fā)錯(cuò)誤分類（Dalvi et al., 2004)。尤其是機(jī)器學(xué)習(xí)模型中的神經(jīng)網(wǎng)絡(luò)等其他許多類別，特別容易受到基于測(cè)試時(shí)系統(tǒng)輸入中的小修改的攻擊影響（Biggio et al., 2013; Szegedy et al., 2014; Goodfellow et al., 2014; Papernot et al., 2016b)。

問(wèn)題可以總結(jié)如下。假設(shè)有一個(gè)機(jī)器學(xué)習(xí)系統(tǒng) M 和輸入樣本 C，我們稱其為干凈例子。假設(shè)樣本 C 中機(jī)器學(xué)習(xí)系統(tǒng)中正確分類，即：M(C) = y_true。我們可以打造一個(gè)對(duì)抗性例子 A，與 C 在感官上無(wú)法區(qū)分，但是被系統(tǒng)錯(cuò)誤分類，即：M(A) ≠ y_true。這些對(duì)抗性例子比通過(guò)噪音改變的例子更頻繁地被錯(cuò)誤分類，即便是噪音的廣度超過(guò)對(duì)抗性影響的廣度（Szegedy et al., 2014)。

對(duì)抗性例子對(duì)實(shí)用的機(jī)器學(xué)習(xí)應(yīng)用造成潛在的安全威脅。其中，Szegedy et al. （2014）提出了一個(gè)特別設(shè)計(jì)為在模型 M₁ 中被錯(cuò)誤分類的對(duì)抗性例子，經(jīng)常也會(huì)被模型 M₂ 錯(cuò)誤分類。這種對(duì)抗性例子的可轉(zhuǎn)移特點(diǎn)意味著我們可以生成對(duì)抗性例子，并且無(wú)需涉及底層模型就能對(duì)機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行錯(cuò)誤分類攻擊。Papernot et al. (2016a、b) 在現(xiàn)實(shí)情境中證明了此類攻擊。

但是，所有關(guān)于針對(duì)神經(jīng)網(wǎng)絡(luò)的對(duì)抗性例子的先前研究利用了一個(gè)威脅模型，其中攻擊者直接向機(jī)器學(xué)習(xí)模型中提供輸入。這樣，對(duì)抗性攻擊依賴于輸入數(shù)據(jù)修改的良好調(diào)試。

這樣的威脅模型可以描述一些情景，其中攻擊完全在計(jì)算機(jī)中發(fā)生，例如作為逃避垃圾郵件過(guò)濾器或者病毒軟件監(jiān)測(cè) (Biggio et al., 2013; Nelson et al.)。但是，實(shí)踐中許多的機(jī)器學(xué)習(xí)系統(tǒng)在物理環(huán)境中運(yùn)行。可能的例子包括但不限于：通過(guò)攝像頭及其他傳感器感知世界的機(jī)器人、視頻監(jiān)控系統(tǒng)以及圖像和聲音分類的移動(dòng)應(yīng)用。在這類情境中，對(duì)抗性不能依賴于輸入數(shù)據(jù)中基于像素的良好調(diào)整。因而產(chǎn)生了以下問(wèn)題：是否還有可能打造對(duì)抗性例子，對(duì)在物理世界里運(yùn)行的機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行對(duì)抗性攻擊，并通過(guò)各種傳感器而非數(shù)字化表征來(lái)感知數(shù)據(jù)？

一些早先的研究已經(jīng)探索了機(jī)器學(xué)習(xí)系統(tǒng)的物理攻擊問(wèn)題，但不是通過(guò)在輸入中制造微小的干擾來(lái)愚弄神經(jīng)網(wǎng)絡(luò)。例如，Carlini et al. (2016) 顯示了一個(gè)攻擊創(chuàng)造出的聲音輸入，移動(dòng)手機(jī)識(shí)別其為包含有意義的語(yǔ)音指令，而人類聽(tīng)起來(lái)是無(wú)意義的一句話?；谡掌拿娌孔R(shí)別系統(tǒng)很容易受到回放攻擊的影響，其中給攝像頭呈現(xiàn)一個(gè)授權(quán)用戶之前抓取的面部圖像，而非一個(gè)真實(shí)的人臉（Smith et al., 2015)。原則上，對(duì)抗性例子可以應(yīng)用于任一個(gè)物理領(lǐng)域中。語(yǔ)音命令領(lǐng)域中的一個(gè)對(duì)抗性例子會(huì)包括一個(gè)對(duì)于人類來(lái)說(shuō)看起來(lái)無(wú)害的錄音（例如一首歌），但是其中包含機(jī)器學(xué)習(xí)算法會(huì)識(shí)別出的語(yǔ)音指令。一個(gè)面部識(shí)別領(lǐng)域的對(duì)抗性例子可能包括面部非常微妙的改動(dòng)，因此一個(gè)人類觀察者會(huì)正確識(shí)別出他們的身份，但是機(jī)器學(xué)習(xí)系統(tǒng)會(huì)將他們認(rèn)作一個(gè)不同的人。

這篇論文中，我們探索在物理世界中針對(duì)圖像分類任務(wù)創(chuàng)造對(duì)抗性例子的可能性。為了這個(gè)目的，我們用一個(gè)預(yù)先訓(xùn)練的 ImageNet Inception 分類器進(jìn)行了一個(gè)實(shí)驗(yàn)（Szegedy et al., 2015)。我們?yōu)檫@個(gè)模型生成了對(duì)抗性例子，然后將這些例子通過(guò)一個(gè)手機(jī)攝像頭輸入分類器，并測(cè)量分類精度。這個(gè)情景是一個(gè)簡(jiǎn)單的物理世界系統(tǒng)，通過(guò)一個(gè)攝像頭感知數(shù)據(jù)，然后運(yùn)行圖像分類器。我們發(fā)現(xiàn)，很大一部分從原始模型中生成的對(duì)抗性例子即便是通過(guò)攝像頭感知，仍然被錯(cuò)誤分類。

出人意料的是，我們的攻擊方法不需要針對(duì)攝像頭的出現(xiàn)做出任何修改——這是使用對(duì)抗性例子、為 Inception 模型打造的最簡(jiǎn)單的攻擊，其帶來(lái)的對(duì)抗性例子成功轉(zhuǎn)移到了攝像頭與 Inception 模型的結(jié)合中。因此，我們的結(jié)果給出了較低的攻擊成功率，可以通過(guò)更有針對(duì)性的攻擊實(shí)現(xiàn)，在打造對(duì)抗性例子的時(shí)候明顯地模擬攝像頭。

我們的結(jié)果的限制是，我們假設(shè)了一個(gè)威脅模型，其中攻擊者完全了解模型架構(gòu)和參數(shù)值。這基本上是因?yàn)槲覀兛梢栽谒袑?shí)驗(yàn)中使用一個(gè)單一的 Inception v3 模型，而不需要設(shè)置和訓(xùn)練不同的高效模型。對(duì)抗性例子的轉(zhuǎn)移特性意味著，當(dāng)攻擊者不了解模型描述的時(shí)候，我們的結(jié)果可能微弱地延展到情景中（Szegedy et al., 2014; Goodfellow et al., 2014; Papernot et al., 2016b)。

為了更好理解攝像頭引起的重要圖像轉(zhuǎn)變?nèi)绾斡绊憣?duì)抗性例子的轉(zhuǎn)移性，我們進(jìn)行了一系列額外的實(shí)驗(yàn)，研究了對(duì)抗性例子如何在若干個(gè)具體類型的圖像轉(zhuǎn)換合成中轉(zhuǎn)移。

論文剩余的部分將如此安排：在第2部分，我們回顧用于生成對(duì)抗性例子的不同方法。接下來(lái)第3部分將詳細(xì)討論我們的“物理世界”實(shí)驗(yàn)設(shè)置和結(jié)果。最后，第4部分描述使用了各種人工圖像轉(zhuǎn)換（例如改變亮度、對(duì)比度等）的實(shí)驗(yàn)，以及它們?nèi)绾斡绊憣?duì)抗性例子。

2、生成對(duì)抗性圖像的方法

這個(gè)部分描述我們?cè)趯?shí)驗(yàn)中使用的不同的生成對(duì)抗性圖像的方法。值得注意的是，沒(méi)有任何一個(gè)描述中的方法保證生成的圖像會(huì)被錯(cuò)誤分類。然而，我們將所有生成的圖像稱為“對(duì)抗性圖像”。

在論文的剩余部分我們將使用以下標(biāo)記：

X - 一個(gè)圖像，通常是3D張量（長(zhǎng) x 寬 x 高）。在這篇論文中，我們假設(shè)像素值是在［0，255］之間的整數(shù)。

y_{true -} 圖像 X 的真實(shí)類別。

J(X,y) - 基于圖像 X 和類別 y，神經(jīng)網(wǎng)絡(luò)的交叉熵成本函數(shù)。我們?cè)诔杀竞瘮?shù)中有意忽視神經(jīng)網(wǎng)絡(luò)權(quán)重（及其他參數(shù)) θ，因?yàn)槲覀兗僭O(shè)在論文的條件中它們是固定的（固定為訓(xùn)練機(jī)器學(xué)習(xí)模型所帶來(lái)的值）。針對(duì)帶有softmax輸出層的神經(jīng)網(wǎng)絡(luò)，應(yīng)用于整數(shù)類標(biāo)簽的交叉熵成本函數(shù)，等于真實(shí)類別的負(fù)對(duì)數(shù)概率：J (X, y) = - log p (y | X)，這個(gè)關(guān)系會(huì)在下面用到。

Clip X，∈｛ X’ ｝－運(yùn)行圖像 X’ 的逐像素剪輯的函數(shù)，因此結(jié)果會(huì)在 L∞ ε- 原圖像 X 周邊。詳細(xì)的裁剪方程如下：

機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中

其中 X (x, y, z) 是圖像 X 在坐標(biāo)（x, y) 時(shí) z 軸的值。

2.1 快速方法

生成對(duì)抗性圖像的最簡(jiǎn)單的方法之一是如 Goodfellow et al.(2014)描述，目標(biāo)是成本函數(shù)的線性化以及解決最大化L∞ 約束的成本。這可以閉合實(shí)現(xiàn)，只需要調(diào)用一次反向傳播：

機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中

其中 ε 是一個(gè)有待選擇的超參數(shù)。

這篇論文中，我們將這個(gè)方法稱為“快速方法”，因?yàn)樗恍枰粋€(gè)迭代過(guò)程來(lái)計(jì)算對(duì)抗性例子，這樣比其他考慮的方法更快。

2.2 基本迭代方法

我們引入了一個(gè)直接的方式來(lái)延伸“快速”方法——我們用小步長(zhǎng)將其應(yīng)用多次，并在每一步之后剪切中間結(jié)果的像素值，來(lái)確保它們?cè)谠紙D像的 ε -周邊之內(nèi)：

機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中

在我們的實(shí)驗(yàn)中，我們使用 α ＝ 1，也就是說(shuō)，我們將每一個(gè)像素的值每一步只改變1。我們選擇迭代次數(shù)最少為（ε ＋ 4，1.25 ε）。這個(gè)迭代次數(shù)是以啟發(fā)式方法選擇的；這足夠讓對(duì)抗性例子到達(dá) ε 最大范數(shù)，同時(shí)有足夠的限制，讓實(shí)驗(yàn)的計(jì)算成本值控制范圍內(nèi)。

以下我們將這個(gè)方法稱為“基本迭代”方法。

2.3 迭代最不可能類別方法

我們目前描述過(guò)的兩種方法只是試圖增加正確類型的成本，而不說(shuō)明模型應(yīng)該選擇哪一種不正確的類別。這樣的方法對(duì)于數(shù)據(jù)庫(kù)應(yīng)用來(lái)說(shuō)足夠了，例如 MNIST 和 CIFAR - 10，其中類型的數(shù)量少，而且所有類型之間的差別很大。在 ImageNet，類型數(shù)量多得多，而且不同類別之間的差別度各異，這些方法可能造成比較無(wú)趣的錯(cuò)誤分類，例如將一種雪橇狗錯(cuò)認(rèn)為另一種雪橇狗。為了制造更有趣的錯(cuò)誤分類，我們引入了迭代最不可能類別方法。這種迭代方法試圖制造的對(duì)抗性圖像會(huì)根據(jù)預(yù)期被分類為特定的目標(biāo)類別。至于期望類別，我們使用基于圖像 X 訓(xùn)練而訓(xùn)練的神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)，選擇最不可能的類別：

機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中

對(duì)于一個(gè)訓(xùn)練良好的分類器來(lái)說(shuō)，最不可能的類別通常是與真實(shí)類別高度不同的，因此這項(xiàng)攻擊方法會(huì)造成更加有趣的錯(cuò)誤，例如將一只狗錯(cuò)誤識(shí)別為一架飛機(jī)。

要制造一個(gè)被分類為 y_LL 的對(duì)抗性圖像，我們?cè)谠摲较蜻M(jìn)行迭代步驟：機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中

將 log p(yll | X) 最大化。最后的一個(gè)方程對(duì)于帶有交叉熵?fù)p失的神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)等于：機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中。

這樣，我們就有了以下的步驟：

機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中

對(duì)于這個(gè)迭代過(guò)程，我們與基本迭代方法使用同樣的 α 和同樣的迭代次數(shù)。

下面我們將此方法稱為“最不可能類別”方法，或者簡(jiǎn)稱“l(fā).l. 類別”。

2.4 生成對(duì)抗性例子的方法比較

正如上面所提，對(duì)抗性圖像不能保證一定會(huì)被錯(cuò)誤分類——有時(shí)候攻擊者獲勝，有時(shí)候機(jī)器學(xué)習(xí)模型勝利。我們做了對(duì)抗性方法的實(shí)驗(yàn)比較，來(lái)理解生成圖像實(shí)際的分類精度，以及每一種方法所利用的微擾類型。

實(shí)驗(yàn)使用了從 ImageNet 數(shù)據(jù)庫(kù)（Rusakovsky et al., 2014）中而來(lái)的共50,000個(gè)驗(yàn)證圖像，使用一個(gè)預(yù)先訓(xùn)練的 Inception 3 分類器（Szegedy et al., 2015)。對(duì)于每一個(gè)驗(yàn)證圖像，我們使用不同的方法和不同的 ε 值。對(duì)于每一組方法和 ε，我們?cè)谒?0,000個(gè)圖像上計(jì)算分類精度。另外，我們?cè)谒懈蓛魣D像上計(jì)算精度，用作基準(zhǔn)。

圖表 1 和 2 中展示了生成的對(duì)抗性圖像例子。干凈圖像和對(duì)抗圖像的前一和前五分類精度總結(jié)在圖表3中。

如圖表3中所示，快速方法即便是使用 ε 的最小值，也將前一精度降低了二分之一，將前五精度減少了大約40%，隨著我們?cè)黾?ε 值，快速方法所生成的對(duì)抗性圖像的精度保持不變，直到 ε ＝ 32，然后隨著 ε 增加到 128 緩慢降低到近似于 0。這可以解釋為：快速方法對(duì)每一個(gè)圖像增加 ε 倍的噪音，因此更高的 ε 值實(shí)際上毀壞了圖像內(nèi)容，即便是人類也無(wú)法識(shí)別，見(jiàn)圖 1。

迭代方法利用了很多更良好的微擾，即便是在更高 ε 值的情況下也不毀壞圖像，見(jiàn)圖 2。

基本迭代方法能夠在 ε < 48 時(shí)生成更好的對(duì)抗性圖像，然而當(dāng)我們提升 ε 值，它無(wú)法提升。

“最不可能類型”方法即便是在 ε 相對(duì)較小時(shí)，也會(huì)毀壞大部分圖像的正確分類。

機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中

圖1: 比較使用“快速”方法進(jìn)行抵抗性微擾而來(lái)的圖像。頂部圖像是一個(gè)“膝墊”而底部圖像是“垃圾車”。在兩種情況中，干凈圖像都被正確分類了，而對(duì)抗性圖像在所有考慮的 ε 值中都錯(cuò)誤分類了。

機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中

圖2: 用 ε ＝ 32，比較不同的對(duì)抗性方法。迭代方法生成的微擾比快速方法生成的更好。另外，迭代方法不會(huì)總是選擇 ε－周邊邊界上的點(diǎn)作為對(duì)抗性圖像。

機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中

圖3: 在不通對(duì)抗性方法的攻擊下，Inception v3 的前一和前五精度，以及與“干凈圖像”——數(shù)據(jù)庫(kù)中未經(jīng)修改的圖像——相比，不同的 ε 值。精度是使用 ImageNet 數(shù)據(jù)庫(kù)中共 50,000 個(gè)驗(yàn)證圖像計(jì)算而出。在這些實(shí)驗(yàn)中，ε 值的范圍是 2 到 128。

機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中

圖4: 實(shí)驗(yàn)設(shè)置：（a) 生成的打印，包含干凈圖像與對(duì)抗性圖像組，以及一個(gè)二維碼來(lái)幫助自動(dòng)剪切；（b）手機(jī)攝像頭制作的打印照片；(c) 從照片中自動(dòng)剪切的圖像。

我們將所有接下來(lái)的實(shí)驗(yàn)進(jìn)一步限制為 ε ≤ 16，因?yàn)檫@樣的微調(diào)即便是被識(shí)別到，也只會(huì)被認(rèn)為是小噪音，而對(duì)抗性方法可以在干凈圖像的 ε-周邊之內(nèi)，生成足夠數(shù)量的錯(cuò)誤分類例子。

3. 對(duì)抗性例子的圖像

3.1 對(duì)抗性圖像的毀壞率

為了研究對(duì)抗性圖像強(qiáng)制轉(zhuǎn)換的影響，我們引入了毀壞率的概念。它可以描述為對(duì)抗性圖像中，經(jīng)過(guò)轉(zhuǎn)化后不再會(huì)錯(cuò)誤分類的比例。公式化定義如下方程（1）：

機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中

其中 n 是用于計(jì)算毀壞率的圖像個(gè)數(shù)，X^k 是一個(gè)數(shù)據(jù)庫(kù)中的圖像，機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中是這個(gè)圖像的真實(shí)類別，是對(duì)應(yīng)的對(duì)抗性圖像。函數(shù) T(*) 是一個(gè)強(qiáng)制性圖像轉(zhuǎn)換——這篇論文中，我們研究各種轉(zhuǎn)換，包括打印圖像和對(duì)結(jié)果進(jìn)行拍照。函數(shù) C (X, y) 是一個(gè)指示函數(shù)，返回圖像是否正確分類：

機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中

我們將這個(gè)指示值的二進(jìn)制否定標(biāo)記為機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中，計(jì)算方式是＝ 1 － C ( X, y )。

3.2 實(shí)驗(yàn)設(shè)置

為了探索物理對(duì)抗性例子的可能性，我們用對(duì)抗性例子的圖片進(jìn)行了一系列實(shí)驗(yàn)。我們打印了干凈圖片和對(duì)抗性圖片，為打印的頁(yè)面拍了照片，并從完整頁(yè)面中將打印圖片剪切了出來(lái)。我們可以認(rèn)為這是一個(gè)黑盒轉(zhuǎn)化，我們稱為“照片轉(zhuǎn)化”。

我們用干凈圖像和對(duì)抗性圖像，分別在照片轉(zhuǎn)化之前及之后計(jì)算精度，并計(jì)算由于照片轉(zhuǎn)化而來(lái)的對(duì)抗性圖像的毀壞率。

實(shí)驗(yàn)過(guò)程如下：

1、打印圖像，如圖4a。為了減少手工工作量，我們?cè)诿繌埣埳洗蛴×硕嘟M干凈和對(duì)抗性例子。另外，打印的邊角還放置了二維碼來(lái)幫助自動(dòng)剪切。

所有打印的生成圖像（圖4a）保存為無(wú)損 PNG 格式。

一批批 PNG 打印使用 ImageMagick 套裝里的默認(rèn)設(shè)定：convert * .png output.pdf 轉(zhuǎn)化為多頁(yè) PDF 文檔。

生成出來(lái)的 PDF 文檔使用一個(gè) Ricoh MP C5503 辦公室打印機(jī)來(lái)打印。PDF 文檔的每一頁(yè)都使用默認(rèn)打印機(jī)大小調(diào)整來(lái)自動(dòng)調(diào)整大小，來(lái)適合整張紙。打印機(jī)像素設(shè)置為 600dpi。

2、使用手機(jī)（Nexus 5x）來(lái)對(duì)打印的圖像拍照，見(jiàn)圖4b。

3、自動(dòng)剪切和包裹圖片中的驗(yàn)證例子，這樣它們會(huì)變成與原圖像同樣大小的正方形，見(jiàn)圖4c：

（a）監(jiān)測(cè)照片四角上的四個(gè)二維碼的位置和值。二維碼包涵了圖片中顯示的驗(yàn)證例子的批次信息。如果沒(méi)能成功監(jiān)測(cè)到任何一個(gè)邊角，整個(gè)圖像都會(huì)被放棄，照片中的圖像就不會(huì)用來(lái)計(jì)算精度。我們觀察到，任何實(shí)驗(yàn)中，所有圖像中不超過(guò)10%的圖像被放棄，通常被放棄的圖像大約為3%到6%。

（b）使用透視轉(zhuǎn)換來(lái)包裹圖像，從而將二維碼的位置移入預(yù)先定義的坐標(biāo)。

（c）圖像包裹后，每一個(gè)例子都有了已知的坐標(biāo)，能夠很容易從圖像中剪切出來(lái)。

4、在轉(zhuǎn)化圖像和原圖像上運(yùn)行分類。計(jì)算對(duì)抗性圖像的精度和毀壞率。

這個(gè)過(guò)程包括了將打印頁(yè)面進(jìn)行手動(dòng)拍照，不需要仔細(xì)控制燈光、攝像機(jī)角度和到頁(yè)面的距離等因素。這是故意的；這引入了細(xì)微的變化，有可能會(huì)毀壞對(duì)抗性微擾，因?yàn)樗蕾嚰?xì)微的、良好適應(yīng)的精確像素值。不過(guò)，我們沒(méi)有故意使用極端的攝像機(jī)角度或者燈光情況。所有照片都是在正常的室內(nèi)照明、以大致正對(duì)頁(yè)面的攝像機(jī)拍攝的。

對(duì)每一組對(duì)抗性例子生成方法以及 ε，我們進(jìn)行兩組實(shí)驗(yàn)：

平均情況：

為測(cè)量平均情況表現(xiàn)，我們?cè)谝粋€(gè)實(shí)驗(yàn)中隨機(jī)選擇了102個(gè)圖像，用一個(gè)既定 ε 和對(duì)抗性方法。這個(gè)實(shí)驗(yàn)估測(cè)對(duì)抗性成功攻擊隨機(jī)選擇照片的頻率——外界隨機(jī)選擇一個(gè)圖像，對(duì)抗性試圖讓其被錯(cuò)誤分類。

預(yù)先篩選的情況：

為了研究更主動(dòng)的攻擊，我們用預(yù)先篩選過(guò)的圖片進(jìn)行了試驗(yàn)。具體來(lái)說(shuō)，我們選擇了102個(gè)圖像，這樣所有干凈圖像都正確分類了，而所有對(duì)抗性圖像（在圖片轉(zhuǎn)換前）都錯(cuò)誤分類了（前一和前五分類都是）。此外，我們?yōu)樽罡哳A(yù)測(cè)使用了置信度閾值：p (y_predicted | X) ≥ 0.8，其中y_predicted 是網(wǎng)絡(luò)預(yù)測(cè)的圖像 X 的類別。這個(gè)試驗(yàn)測(cè)量當(dāng)對(duì)抗性可以選擇攻擊哪一個(gè)原始圖像時(shí)的成功頻率。在我們的威脅模型之下，對(duì)抗性可以涉及模型的參數(shù)和架構(gòu)，因此攻擊者總是可以進(jìn)行干涉，來(lái)確定攻擊在沒(méi)有照片轉(zhuǎn)化的情況下是否會(huì)成功。攻擊者可能會(huì)期望，通過(guò)選擇會(huì)在這個(gè)初始階段成功的攻擊，來(lái)實(shí)現(xiàn)最佳效果。受害者然后會(huì)對(duì)攻擊者選擇展示的物理目標(biāo)再拍一個(gè)新照片，圖片轉(zhuǎn)化可能會(huì)保留或毀壞攻擊。

機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中

表格1：平均情況中，對(duì)抗性圖像照片的精度（隨機(jī)選擇的圖像）。

機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中

表格2：預(yù)先篩選情況中，對(duì)抗性圖像照片的精度（干凈圖像正確分類，對(duì)抗性圖像會(huì)確保進(jìn)行不正確分類）。

機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中

表格3：照片的對(duì)抗性圖像毀壞率。

3.3 對(duì)抗性圖像照片的實(shí)驗(yàn)結(jié)果

圖片轉(zhuǎn)化實(shí)驗(yàn)結(jié)果總結(jié)再表格1、2和3中。

我們發(fā)現(xiàn)，“快速”對(duì)抗性圖像對(duì)于照片轉(zhuǎn)化比迭代方法更強(qiáng)。這可以解釋為迭代方法利用更加微妙的微擾，而這些微擾更可能被圖片轉(zhuǎn)化所毀壞。

有一個(gè)預(yù)期之外的結(jié)果是，在一些情況下，對(duì)抗性毀壞率在“預(yù)先篩選情況”中比“平均情況”中的更高。在迭代方法的情況中，即便是預(yù)先篩選圖像的總成功率也比隨機(jī)選擇的圖像更低。這意味著要獲得非常高的置信度，迭代方法經(jīng)常進(jìn)行微妙的調(diào)整，不能適應(yīng)圖片轉(zhuǎn)化。

總體來(lái)說(shuō)，結(jié)果顯示對(duì)抗性例子的一些部分即便是在非淺顯的轉(zhuǎn)化后也仍被錯(cuò)誤分類：圖片轉(zhuǎn)化。這證明了物理對(duì)抗性例子的可能性。例如，一個(gè)使用 ε ＝ 16 快速方法的對(duì)抗性例子，可以預(yù)計(jì)有 2/3 的圖像會(huì)出現(xiàn)前一錯(cuò)誤分類，而1/3的圖像會(huì)出現(xiàn)前五錯(cuò)誤分類。因此，通過(guò)生成足夠多的對(duì)抗性圖像，對(duì)抗性預(yù)計(jì)可以比自然輸入造成多得多的錯(cuò)誤分類。

4、人工圖像轉(zhuǎn)化

圖5：對(duì)改變亮度的轉(zhuǎn)化，各種不同對(duì)抗性方法的對(duì)抗性毀壞率比較。所有實(shí)驗(yàn)都是以 ε ＝ 16 來(lái)進(jìn)行。

之前部分描述的圖片轉(zhuǎn)化可以被認(rèn)為是一種更簡(jiǎn)單的圖像轉(zhuǎn)化的綜合。因此，為了更好理解，我們進(jìn)行了一系列實(shí)驗(yàn)，來(lái)測(cè)量人工圖像轉(zhuǎn)化的對(duì)抗性毀壞率。我們探索來(lái)以下轉(zhuǎn)化組：改變對(duì)比度和亮度、高斯模糊、高斯噪音以及 JPEG 編碼。

對(duì)這一組實(shí)驗(yàn)，我們使用了1,000個(gè)圖像的一個(gè)子集，從驗(yàn)證組中隨機(jī)選擇而出。這個(gè)1,000個(gè)的子集為一次性選出，這樣，所有這個(gè)部分的實(shí)驗(yàn)都使用同樣的圖像子集。我們?yōu)槎鄬?duì)對(duì)抗性方法和轉(zhuǎn)化進(jìn)行了實(shí)驗(yàn)。對(duì)每一組轉(zhuǎn)化和對(duì)抗性方法，我們計(jì)算對(duì)抗性例子，為對(duì)抗性例子應(yīng)用轉(zhuǎn)化，然后根據(jù)方程（1）計(jì)算毀壞率。

當(dāng) ε ＝ 16，各種轉(zhuǎn)化和對(duì)抗性方法的結(jié)果總結(jié)在圖5、6、7、8和9中。我們可以得出以下的總體觀察結(jié)果：

快速方法生成的對(duì)抗例子是面對(duì)轉(zhuǎn)化時(shí)最強(qiáng)的，迭代最不可能類型方法生成的對(duì)抗性例子是最弱的。這與我們?cè)趫D片轉(zhuǎn)化中的結(jié)果一致。
前五毀壞率通常比前1毀壞率高。這可以解釋為：為了“毀壞”前五對(duì)抗性例子，必須要有一個(gè)轉(zhuǎn)化來(lái)將正確分類的標(biāo)簽推進(jìn)前五項(xiàng)預(yù)測(cè)之一。然而，為了毀壞前1對(duì)抗性例子，我們必須將正確的標(biāo)簽推入前1項(xiàng)預(yù)測(cè)，這是一個(gè)更加嚴(yán)格的要求。
改變亮度和對(duì)比度對(duì)于對(duì)抗性例子沒(méi)有太大的影響?？焖俜椒ê突镜鷮?duì)抗性例子的毀壞率小于5%，迭代最不可能類別方法的毀壞率小于20%。
模糊、噪音和 JPEG 編碼比改變亮度和對(duì)比度有更高的毀壞率。尤其是對(duì)于迭代方法來(lái)說(shuō)，毀壞率可以高達(dá)80% - 90%。然而，沒(méi)有任何一個(gè)轉(zhuǎn)化毀壞100%的對(duì)抗性例子，這與“圖片轉(zhuǎn)化”實(shí)驗(yàn)中的結(jié)果一致。

機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中

圖6：改變對(duì)比度的各種對(duì)抗性方法的對(duì)抗性毀壞率比較。所有實(shí)驗(yàn)都是以 ε ＝ 16 進(jìn)行。

機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中

圖7：高斯模糊轉(zhuǎn)化的各種對(duì)抗性方法的對(duì)抗性毀壞率比較。所有實(shí)驗(yàn)都是以 ε ＝ 16 進(jìn)行。

機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中

圖8：高斯噪音轉(zhuǎn)化的各種對(duì)抗性方法的對(duì)抗性毀壞率比較。所有實(shí)驗(yàn)都是以 ε ＝ 16 進(jìn)行。

機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中

圖9：JPEG 編碼轉(zhuǎn)化的各種對(duì)抗性方法的對(duì)抗性毀壞率比較。所有實(shí)驗(yàn)都是以 ε ＝ 16 進(jìn)行。

5、結(jié)論

這篇論文中，我們探索了這種可能性：針對(duì)在物理世界中運(yùn)行的機(jī)器學(xué)習(xí)系統(tǒng)，創(chuàng)造對(duì)抗性例子。我們使用了手機(jī)攝像頭拍攝的圖像，輸入一個(gè) Inception v3 圖像分類神經(jīng)網(wǎng)絡(luò)。我們顯示了在這樣一個(gè)設(shè)置中，使用原始網(wǎng)絡(luò)制造的對(duì)抗性圖像中，有足夠多的部分被錯(cuò)誤分類了，即便是通過(guò)攝像機(jī)來(lái)輸入分類器。這項(xiàng)發(fā)現(xiàn)證明了物理世界中的機(jī)器系統(tǒng)具有對(duì)抗性例子的可能性。未來(lái)的研究中，我們期望證明還有可能使用除了打印在紙上的圖像以外其他類型的物理物品，來(lái)攻擊不同類型的機(jī)器學(xué)習(xí)系統(tǒng)——例如復(fù)雜的增強(qiáng)學(xué)習(xí)代理——無(wú)需涉及模型的參數(shù)和架構(gòu)，就能實(shí)施攻擊（假設(shè)使用轉(zhuǎn)移特性），以及通過(guò)在對(duì)抗例子打造過(guò)程中，明確地模擬物理轉(zhuǎn)化，從而實(shí)現(xiàn)更高成功率的物理攻擊。我們還希望未來(lái)的研究會(huì)開(kāi)發(fā)高效的方法，來(lái)防御這樣的攻擊。

via MIT Tech Review

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

逸炫

編輯

發(fā)私信

當(dāng)月熱門(mén)文章

機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中

機(jī)器視覺(jué)的阿基里斯之踵，秘密都在谷歌Brain論文中