AI 安全大佬教你如何攻擊云端圖像分類模型 | 純干貨

本文作者：李勤

2019-06-16 09:23

導語：AI 面對對抗樣本相當脆弱。

雷鋒網(wǎng)編者按：AI 已經(jīng)從神乎其神的東西落地在生活當中，智能音箱、無人駕駛、智能支付等都已經(jīng)用上了 AI 的技術，并且通過實驗、比賽、實際的產(chǎn)品， AI 已經(jīng)在很多的領域達到了人類的平均水平，甚至在某些領域已經(jīng)超過了平均水平。但是 AI 面對對抗樣本卻相當脆弱，本次演講的主講人 Dou Goodman 所在的百度安全已經(jīng)通過實驗證明，在原始數(shù)據(jù)上疊加很小的擾動就可以讓 AI 產(chǎn)生錯誤的識別結果。

以下為 Dou Goodman 在第七屆NSC網(wǎng)絡安全大會（原中國網(wǎng)絡安全大會）的演講概要，雷鋒網(wǎng)在不改變講者原意的基礎上對演講全文進行了刪減，小標題為編者所加，該文原標題為《遷移攻擊云端AI，一個被遺忘的戰(zhàn)場》。

演講人： Dou Goodman ，百度安全

攻擊云端最困難

在經(jīng)典的圖像領域，左邊原始圖片是一只熊貓，中間這一塊是我們在原始圖片上疊加的擾動，把擾動放在原始圖片上形成新的圖片，最后生成的圖片叫做對抗樣本。

從人的感官看，最后生成的對抗樣本還是可以清晰識別為一只熊貓，機器識別模型可能把它識別為長臂猿或者其他的動物，這就是典型的對抗樣本的例子。對抗樣本有一個非常典型的特征，它欺騙的是 AI 模型，一般欺騙不了人，但人對原始數(shù)據(jù)的修改難以識別，這里舉例的僅是圖像數(shù)據(jù)，在語言、文本數(shù)據(jù)上也有同樣的現(xiàn)象，在一段語音里疊加一段人不能理解或者是根本沒法察覺的背景音樂，卻可以欺騙智能音箱，2017 年浙大的徐老師通過海豚音實現(xiàn)了類似的攻擊，對抗樣本在廣泛的 AI 各領域都存在，只是目前應用比較多的是圖像識別和語音。

我們是否可以相對形象地解釋一下對抗樣本的存在？我們拿最基礎的二分類問題舉例，這個圖像是不是熊貓，可以簡化為二分類問題，機器學習的過程就是提供足夠多的樣本讓模型學習，能夠畫出分割曲線，綠顏色就是熊貓，紅顏色不是熊貓，學習以后畫出熊貓，他知道曲線上面就是熊貓，曲線下面就不是熊貓。但是，如果修改一定像素，讓它跨越這個分割，從機器的角度來說已經(jīng)完成了從熊貓到不是熊貓的變化，但是從人的感官無法察覺，有時可能就是十幾個像素點。

接下來對對抗樣本有一些簡單的分類，平常按照對抗樣本的已知情況分為白盒、黑盒，現(xiàn)在介紹的就是白盒攻擊，對你整個模型就是很了解，完整了解模型的結構，甚至是每個參數(shù)，也可以沒有限制的訪問模型的輸入，這是一個非常強的條件，相當于整個模型我都了解，還有一個需要特別強調的是，我可以無限制訪問模型輸入，是直接訪問的，這是非常強的，這是得天獨厚的條件。

相對于白盒而言，困難一點的是黑盒攻擊，我對你使用的模型、參數(shù)都不知道，不了解，幾乎無限制的直接訪問模型的輸入。只能訪問這個模型的輸入，攻擊難度就提升了很多，因為我對模型不了解，現(xiàn)在唯一能知道的就是模型輸入，這里還有一點黑盒模型比較好的地方，在于我對你的輸入是直接訪問模型的輸入，中間不會經(jīng)過亂七八糟的處理，同時我對黑盒的訪問是沒有任何限制的，可以訪問十萬次，只要機器CPU足夠猛，時間足夠多，就可以無限制訪問，這是一個特別好的條件，攻擊云端的 API 接口是一種特殊形式的黑盒攻擊，廣義來說也是黑盒攻擊，受的限制更多，除了之前介紹的我不知道你使用的是什么樣的模型，也不知道什么樣的參數(shù)，更麻煩的地方在于還要經(jīng)過未知的圖像預處理環(huán)節(jié)，云廠商不是傻子，圖像傳上去之前總得“動點手腳”，最常見的是把圖像隨機縮放。或者，從圖像里隨機CROP一個大小，預處理環(huán)節(jié)對攻擊者造成了多大的影響，接下來會講到這個事情。

還有一種云端訪問的情況比較苛刻，訪問次數(shù)和頻率受限，他是收錢的，會限制你的速度，比如每秒只能傳十張或者是免費一天只能處理一百張，超過一百張就得收錢，如果攻擊者要攻擊云端模型，訪問的頻率和次數(shù)受限，如果是土豪，可以充很多的值，另當別論，網(wǎng)絡環(huán)境決定了你不可能太頻繁地傳圖片，所以，攻擊云端是最困難的。

因此，把模型放在云端會給我們一種錯誤的安全感，比如說我的模型如果是本地化部署，部署在你的手機或者是本地服務器里都是不安全的，攻擊者可以通過反向破解甚至直接把模型拷出來就可以還原模型，把模型放在本地這是一個共識，大家覺得這是不安全的，但是如果把模型放在云端，會覺得你訪問我的次數(shù)受限，你又不知道我是什么樣的模型，又不知道模型是什么樣的參數(shù)，是不是就很安全？這是一種錯誤的安全感，再對比一下，白盒和黑盒相比，黑盒困難，是因為黑盒不知道你的模型結構，也不知道你的模型參數(shù)，但是攻擊云端很困難，正是因為這樣的困難，把模型放在云端是很安全的，我會告訴你不是這樣的。

今天討論的問題就是攻擊云端圖像分類模型，只是舉個例子，這是比較簡單的場景，圖像分類可以識別你是奔馳還是寶馬，圖像問題最后都可以劃分為圖像分類問題，這是最簡單的圖像分類的情況，拿最可愛的貓作為原始圖片，一個攻擊者希望在貓的圖片上疊加一定的擾動以后攻擊云端圖像分類API，攻擊之前我們的分類模型可以正確識別貓，概率是99%，攻擊以后，模型將對抗樣本識別為別的物體。

第一類：查詢攻擊

常見的幾種攻擊云端的方式，也是黑盒攻擊的衍生，最常見的就是基于查詢的攻擊。

非常好理解，對應的模型我什么也不知道，一靠猜，二靠攻，可以不斷通過查詢的反饋來猜測、了解你的模型結構，同時我攻擊的過程在查詢中進行的，要通過大量的請求來了解模型的結構，并且攻擊，攻擊速度特別慢，成本比較高，因為有了云端的限制，攻擊十萬次，一萬次以后，花一個小時甚至一天，比較慢，成本高，這是時間成本，還有，攻擊要花比較多的錢。我了解到，通常云平臺一天免費的量是從一百至兩千都有，但是可以看到攻擊這張圖片就需要兩萬次甚至十萬次，每攻擊一張照片就得花幾塊錢或者是十幾塊錢。

此外，圖像尺寸越大，查詢次數(shù)越多。

基于查詢的攻擊方式在理論上可行，在2015年之前很多論文也只有通過查詢才能攻擊，浙大的紀老師提出一個新的算法，有一定的先驗知識，我想把人的圖片能夠識別成一個貓或者是把貓的圖片識別成一個汽車，是否可以讓我修改的像素點只集中在貓或者是人的身上？首先把圖像先做一個語義分割，把我們關注的人或者是物體分割出來，只修改該物體身上的像素點，這樣就讓我們查詢的范圍大大減少。

攻擊人物識別模型，比如為了規(guī)避政策的風險，里面只要涉及到明星或者政治人物，盡量希望這張圖片不要傳上去或者是打上特殊的標記，現(xiàn)在很多云平臺都提供這個功能——敏感人物識別，這是奧巴馬的圖片，通過在奧巴馬圖片上修改一些像素點，就無法識別這是奧巴馬，這是基于查詢攻擊算法的改進。

第二類：本地生成仿真模型

第二種方法，如果已經(jīng)知道云端模型，就可以把黑盒攻擊退回為白盒攻擊。

通過研究，很多圖像分類模型基礎單元是很接近的，甚至只是同一個模型增加了層次，對抗樣本本身具有遷移性，如果模型結構越接近，攻擊效果也就越好，縱列前三個可以認為是同一類模型，成素不一樣，后面兩個是別的模型，在本地會攻擊這個模型，生成的對抗樣本，再攻擊云端的遠程模型，縱軸是本地有的模型，橫軸等于是攻擊模型，數(shù)字表明的是準確率，這個值越低表示攻擊效果越好，如果我的對抗樣本都能讓你識別錯，我的準確率是零，值越小說明我的攻擊效果越好，在對角線這個軸都是零，表我本地模型云端是完全一樣的，攻擊成功率應該是100%，識別是0，結構越接近的，他們對應的識別率比較低，這也證明了如果結構越接近，攻擊效果越好，利用這一點，我們可以猜測云端可能是什么樣的模型，在本地用同樣的模型直接攻擊，這樣查詢次數(shù)只有一次，攻擊效率比較低，或者說成功率比較低。

第三類：通過訪問猜模型

接下來就是我們實驗室今年提出來的一種新攻擊方式，模型越接近，攻擊效果越好，我們會去猜到底云端是什么樣的模型，運氣好了猜中，運氣不好猜不中，是否有某種方式一定保證我可以猜中？

因為常見的圖片分類模型只有那么多，假設我手上有一張貓的圖片，把貓的圖片拿到手上已知的模型里，每一個都生成對抗樣本，貓讓它識別成狗或者是豬都無所謂，只要識別錯就行，把每一個生成的對抗樣本都扔到云端問一下，就會有一個好玩的結果，如果某種模型返回的值或者是某種模型生成的對抗樣本成功了，就意味著云端和本地的模型非常接近，通過有限的查詢，以后就可以大概率猜測出云端是什么樣的模型，大大提高了準確率，像已知的圖像模型還是有限的，在二十種以內，在有限的查詢次數(shù)摸清云端是什么樣的圖片，把黑盒攻擊退化成為白盒攻擊。

AI 安全大佬教你如何攻擊云端圖像分類模型 | 純干貨

這是我們實際攻擊的實驗室案例，這是一個開源的無人車目標檢測模型，正常情況下能夠識別前方的卡車，后方是一輛汽車，通過我們的攻擊方式后，可以讓后面這輛汽車無法識別，汽車消失了，這是對抗樣本直接的例子。

第四類：替身攻擊

基于遷移的攻擊攻擊效果比較好，前提是攻擊者手上必須有相似或者是類似的圖像分類模型，目前開源比較多的ImageNet還是常見的一千個分類，如果要做惡意圖像識別手上沒有足夠多的模型做遷移，怎么解決這個問題？

有一個新方式——盡量減少查詢的次數(shù)，只能做白盒攻擊，攻擊者可以在本地模擬一個白盒，讓它跟云端的功能相同，這就是替身攻擊的方式，通過有限查詢在本地訓練出一個汽車模型，這樣就把黑盒攻擊又退化成為白盒攻擊，它的攻擊方式分為兩步，第一步通過有限次的查詢 API，得到結果后在本地訓練出一個替身模型，第二步就是白盒攻擊。

AI 安全大佬教你如何攻擊云端圖像分類模型 | 純干貨

這是我們在上個月在DEF CON CHINA 1.0 提的改進版汽車攻擊，常見的替身攻擊需要大量的樣本，攻擊者很難收集成足夠的圖片，如果能用盡量少的圖像在本地訓練出一個模型，做了兩個假設，假設直接拿攻擊圖片作為訓練圖像，我就直接發(fā)出我的訓練樣本，第二，讓本地快速使用少量的樣本模擬出云端功能。

這里就講到我們用的比較典型的功能，第一，就是我們做訓練模型時通常只會關注你的輸出，把原始圖像扔給你，只會關心你最后分類的標簽對不對，就像老板在你工作的最后一天只看你的結果，這樣的效果不會太好。一個比較好的老板會怎么做？他會在項目關鍵的節(jié)點抽查你，看你做的事情跟他預想的是否一樣，我們在訓練時多了一個環(huán)節(jié)，以前訓練時只會關心整個模型的輸出跟預想的結果是否一樣，但我們在實現(xiàn)時會看這幾個模型在幾個關鍵點的輸出是否跟我設想的一下，我們對項目的把控會更好，從模型訓練角度來講，就會用更小的數(shù)據(jù)訓練出更好的模型，更像是如何更好地做遷移學習的過程。

AI 安全大佬教你如何攻擊云端圖像分類模型 | 純干貨

第二，通常圖像識別模型是卷積的，我們把模型分為三部分，比如模型的前半部分我們提取的都是一些初級的特征，比如貓跟人之間提取的是他們身上的紋理，這都是比較初級的特征。第二層是中間層，提取的是稍微高級一點的特征，可能到器官或者是更高級別的特征，到了最后一個級別，更高級別的特征出現(xiàn)了完整的比如人的軀干，完整的頭形，層次越低，提取的特征越初級，層次越高，提取的特征更高，在攻擊的時除了讓目標產(chǎn)生分類錯誤，在更高級別上跟原來的圖片上產(chǎn)生的差距越大，遷移也就越強，這是我們做的兩個點，一是在替身學習時，用盡量少的樣本確認出方法更強的模型。

第二，在白盒攻擊的時候增加了特征圖損失，提高攻擊的遷移性，攻擊常見的云端平臺后，攻擊成功率達到了90%，已經(jīng)接近于白盒的能力，這是我們利用圖像分類的攻擊模型，我們攻擊的是圖像搜索，圖像搜索在實現(xiàn)上有很多的技術，現(xiàn)在比較主流的還是圖片傳上去以后，根據(jù)分類結果去找相同的圖片。

剛才講的前三種都是比較有技術含量的，我需要把模型算一算，后面就是一種新發(fā)現(xiàn)的方式，機器學習模型的弱點，這種攻擊方式本身不需要大家有深度學習的知識，也不需要大家會高等數(shù)學，這是國外研究者發(fā)現(xiàn)的，AI 模型或者是圖像分類模型確實可以在圖像分類任務上達到人類平均水平或者是高出人類，在本質上并沒有理解什么是貓，什么是狗，理解的還是統(tǒng)計學上的規(guī)律，有的翻譯成空間攻擊，無所謂，用比較通俗的語言來說，我在圖片上做一個簡單的旋轉，增加一些噪音，從人的角度理解沒有任何問題，因為我們是真正理解什么是貓，什么是狗，從一個機器的角度來說，圖片就是一個矩陣，矩陣類的數(shù)據(jù)卻發(fā)生了很大的變化，圖像只是旋轉十度，但是對圖像來說，矩陣上的每個像素點的值都被修改了，對于機器來說全改掉了，今年國內的老師好像也發(fā)了相關的文章，同樣的圖片，本來是手槍，旋轉一下，差不多十度，就把一個手槍識別成捕鼠器，中間的禿鷹，旋轉一下，就變成了大猩猩，右邊這個，常見的噪音有幾個，一個是高斯噪音，早期的黑白電視信號不太好，會出現(xiàn)黑白點，就出現(xiàn)了椒鹽噪音，這個是谷歌的例子，左邊的圖片就是一個茶壺，通過疊加了10%的椒鹽噪音把它識別成一個生物。第二個例子，一張別墅的圖片疊加了15%的椒鹽噪音就被識別成生態(tài)系統(tǒng)，導致結果分類輸出產(chǎn)生了錯誤。

以上四種攻擊都可以在不同程度實現(xiàn)對云端 AI 模型的攻擊，也驗證一個觀點，把模型保留在云端給人一種錯誤的安全感。

防守方式

處在學術研究階段的防守方式比較多，只能防守一些點，只有都用上才能對抗中低級攻擊，我們把我們能做的事情做好，提升黑客的攻擊門檻，這樣保證黑客不會輕易把我們的模型偷走，一旦模型被偷走，黑盒攻擊退化成了白盒攻擊，成功率接近100%，最重要的一步，云端的 web 安全要做好，要保證別把模型偷走。

第二，加強濾波器去噪，基礎的濾波器可以干掉常見的高斯、椒鹽噪音，提高魯棒性，希望大家在不太費勁的情況下加一個濾波，但也有一定的風險，可能降低識別率，大家要做測試。

第三，國外研究員在 2018 年的ICLR上提了七種防御方式，最后也被一個大佬攻破，這是一種最容易實現(xiàn)而且效果還不錯的防御方式，生成對抗樣本的過程其實就是利用模型的過擬合，比如在模型實現(xiàn)時可能識別了比較細微的特征，這些細微的特征彌補上就可以欺騙攻擊，比如機器識別一張圖片為貓，是因為有一些特殊的褶皺，這些攻擊特征因為很細致，把圖像做輕微旋轉縮放后，從人的角度來說，圖像本身沒有發(fā)生變化，對抗樣本就會失效，這個實現(xiàn)非常簡單，效果比較好，圖片再傳到云端之前預處理，把圖片做隨機縮放，隨機挪位置，這樣對圖像分類結果不會產(chǎn)生太大的影響，但是對對抗樣本尤其是基于優(yōu)化、修改量比較小的樣本會有比較好的防守效果。

另外，我比較推崇的防守方法叫做對抗訓練，無論你怎么做圖像預處理，本質就可以說是梯度掩碼，證明這樣的方式比較容易攻破，還是要給它喂一些數(shù)據(jù)，把生成的對抗樣本扔給你，再扔到模型重新訓練，這樣會讓模型變得更加可靠。

我們也開源了AI模型工具箱，可以利用生成對抗樣本，重新訓練自己的模型，讓自己的模型更好抵御攻擊。

雷鋒網(wǎng)注：第七屆NSC網(wǎng)絡安全大會（原中國網(wǎng)絡安全大會）由賽可達實驗室、國家計算機病毒應急處理中心、國家網(wǎng)絡與信息系統(tǒng)安全產(chǎn)品質量監(jiān)督檢驗中心、首都創(chuàng)新大聯(lián)盟及百家行業(yè)聯(lián)盟共同主辦。

雷峰網(wǎng)版權文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

2人收藏

李勤

編輯、作者

跟蹤互聯(lián)網(wǎng)安全、黑客、極客。微信：qinqin0511。

掃描關注作者微信

發(fā)私信

當月熱門文章