機(jī)器學(xué)習(xí)系統(tǒng)受到攻擊怎么辦？ 6 個(gè)月的研究心得告訴你破解方案！

本文作者： MrBear

編輯：幸麗娟

2019-07-26 18:31

導(dǎo)語(yǔ)：道路千萬(wàn)條，安全第一條！隱私不保護(hù)，用戶兩行淚。

雷鋒網(wǎng) AI 科技評(píng)論按：機(jī)器學(xué)習(xí)是當(dāng)下人工智能浪潮的核心技術(shù)，受到了工業(yè)界的廣泛應(yīng)用，為社會(huì)帶來(lái)了巨大的產(chǎn)業(yè)價(jià)值。然而，如果機(jī)器學(xué)習(xí)系統(tǒng)受到攻擊，將會(huì)帶來(lái)怎樣的嚴(yán)重后果？我們?cè)撊绾畏治?、?guī)避這種風(fēng)險(xiǎn)？下面，本文作者將基于 6 個(gè)月的研究心得，教給大家破解機(jī)器學(xué)習(xí)系統(tǒng)攻擊的正確方式！

機(jī)器學(xué)習(xí)系統(tǒng)受到攻擊怎么辦？ 6 個(gè)月的研究心得告訴你破解方案！

機(jī)器學(xué)習(xí)正在讓科幻照進(jìn)現(xiàn)實(shí)！但是，任何新的發(fā)明（包括機(jī)器學(xué)習(xí)在內(nèi)）都存在一個(gè)很遺憾的事實(shí)，那就是新的能力同時(shí)也會(huì)帶來(lái)新的安全漏洞，讓攻擊者有機(jī)可趁（相關(guān)閱讀：https://medium.com/@iljamoisejevs/what-everyone-forgets-about-machine-learning-974752543849?source=post_page）。

因此，如果你是首席信息安全官（CISO）或者負(fù)責(zé)安全的產(chǎn)品經(jīng)理（PM），你應(yīng)該如何應(yīng)對(duì)這些新的漏洞呢？你的機(jī)器學(xué)習(xí)系統(tǒng)真的會(huì)被攻擊嗎？如果是這樣的話，會(huì)在何時(shí)、以何種方式發(fā)生攻擊事件呢？

「機(jī)器學(xué)習(xí)安全威脅模型」（ML security threat model ）或許是上述問(wèn)題的解決方案。它是一個(gè)結(jié)構(gòu)化的框架，展示了機(jī)器學(xué)習(xí)系統(tǒng)中所有可能存在的威脅向量。

目前，機(jī)器學(xué)習(xí)仍然是一個(gè)非常新的技術(shù)，人們對(duì)其威脅向量仍然知之甚少。然而，在本文中，我們將近最大努力思考這些問(wèn)題，看看我們是否能夠提出一個(gè)形式化的框架來(lái)思考機(jī)器學(xué)習(xí)安全問(wèn)題。

「機(jī)器學(xué)習(xí)安全威脅模型」的組成部分

對(duì)于本部位于美國(guó)加州洛杉磯的「Calypso」的研究人員來(lái)說(shuō)，當(dāng)他們考慮威脅模型時(shí)，往往會(huì)考慮三個(gè)組成部分：

機(jī)器學(xué)習(xí)系統(tǒng)受到攻擊怎么辦？ 6 個(gè)月的研究心得告訴你破解方案！

1、誰(shuí)會(huì)攻擊你？（WHO）

站在我們對(duì)立面的攻擊者是一切攻擊行為的源頭。你當(dāng)然可以直接將他們稱為「黑客」，但另一方面，你可以進(jìn)一步細(xì)化一些他們的哪些特征信息從而定義他們呢？也許，將他們稱為「深諳機(jī)器學(xué)習(xí)工作機(jī)理的黑客」更好，「深諳機(jī)器學(xué)習(xí)工作機(jī)理并且具備數(shù)學(xué)背景的黑客」則又要更為確切。實(shí)際上，在「誰(shuí)會(huì)攻擊你？」這個(gè)問(wèn)題上，你能刻畫(huà)出的細(xì)節(jié)越多越好！

2、他們?yōu)槭裁匆裟?？（WHY）

攻擊的原因與攻擊者的關(guān)系即為密切（這也是我在此一同討論二者的原因）?！笧槭裁础贡澈蟮南敕ê芎?jiǎn)單——他們可以「黑」掉你，但他們?yōu)槭裁匆@么做呢？這里肯定有他們想要得到的東西，可能是賞金，也可能是其它形式的回報(bào)。在這里，我們也需要為攻擊原因下個(gè)定義，你可以簡(jiǎn)單地說(shuō)「他們?yōu)槭裁床还粑夷?？」（這里不推薦這種定義），也可以定義地更復(fù)雜些：「違反保密規(guī)則，然后將從我的機(jī)器學(xué)習(xí)系統(tǒng)中提取出的數(shù)據(jù)售賣給另一個(gè)實(shí)體 X」（這種定義就更好了?。?/p>

3、他們將如何攻擊你？（HOW）

這部分將涉及到技術(shù)問(wèn)題。既然你已經(jīng)弄清楚了「誰(shuí)會(huì)攻擊你」以及「為什么攻擊你」，那么接下來(lái)的問(wèn)題就是「他們將如何攻擊你」。當(dāng)我們討論機(jī)器學(xué)習(xí)安全時(shí)，不妨想想「他們會(huì)在訓(xùn)練或進(jìn)行推斷時(shí)攻擊你的機(jī)器學(xué)習(xí)系統(tǒng)嗎？」他們會(huì)擁有多少關(guān)于你的系統(tǒng)的信息？在思考「他們?nèi)绾喂裟恪惯@個(gè)問(wèn)題的過(guò)程中，想想他們有哪些備選方案是一個(gè)十分有趣、但也極具挑戰(zhàn)的問(wèn)題。他們可能可以黑掉你的機(jī)器學(xué)習(xí)系統(tǒng)，但是如果黑掉你的數(shù)據(jù)管道更加容易，他們會(huì)這么做嗎？

下面，讓我們針對(duì)上述三個(gè)問(wèn)題的細(xì)節(jié)進(jìn)行展開(kāi)。

誰(shuí)會(huì)攻擊你 + 他們?yōu)槭裁垂裟悖?/span>

對(duì)于「誰(shuí)會(huì)攻擊你」的問(wèn)題，一般來(lái)說(shuō)，我喜歡把對(duì)手想象成「嚴(yán)肅認(rèn)真」的人。在我的腦海中，他們可能是：

1. 聰明的研究人員/工程師在商業(yè)機(jī)器學(xué)習(xí)系統(tǒng)上搗亂（可能是為了某項(xiàng)實(shí)際研究工作，例如攻擊「Clarifai.com」）；
2. 參加了某種賞金計(jì)劃的「白帽子」；
3. 「Penntester/紅隊(duì)人員」在進(jìn)行網(wǎng)絡(luò)安全測(cè)試；
4. 攻擊某個(gè)商業(yè)機(jī)器學(xué)習(xí)系統(tǒng)來(lái)表達(dá)訴求的黑客主義者；
5. 攻擊某個(gè)商業(yè)機(jī)器學(xué)習(xí)系統(tǒng)從而獲得經(jīng)濟(jì)回報(bào)（無(wú)論是通過(guò)實(shí)際部署攻擊的「戰(zhàn)利品」，還是將其在暗網(wǎng)市場(chǎng)上出售）的「黑帽子」；
6. 攻擊某個(gè)商業(yè)機(jī)器學(xué)習(xí)系統(tǒng)的有組織的「黑帽子」團(tuán)體（例如「Anonymous」、「The Shadow Brokers」、以及「Legion of Doom」）；
7. 國(guó)家資助的組織（這里主要指網(wǎng)絡(luò)戰(zhàn)）；

思考你的對(duì)手有多厲害十分重要，因?yàn)檫@定義了他們可能掌握的知識(shí)和工具的種類，以及你的防御應(yīng)該達(dá)到的水平。

現(xiàn)在，讓我們看看「他們?yōu)槭裁垂裟恪?。在我看?lái)，該問(wèn)題可以被分解為下面兩個(gè)子問(wèn)題：

1. 他們的目的是什么？
2. 他們的動(dòng)機(jī)是什么？

我想使用「CIA」（Confidentiality，Integrity，Availability）三角來(lái)回答「他們的目的是什么」：

機(jī)器學(xué)習(xí)系統(tǒng)受到攻擊怎么辦？ 6 個(gè)月的研究心得告訴你破解方案！

保密性、完整性、可用性三大要素是信息安全的三大支柱。如果你能保護(hù)這三者，你就保證了信息系統(tǒng)的安全。

1、保密性（或稱隱私性）攻擊旨在從你的機(jī)器學(xué)習(xí)系統(tǒng)中提取出敏感信息。例如，攻擊者可能想要推斷某個(gè)特定的數(shù)據(jù)點(diǎn)（例如你）是否是某個(gè)特定的訓(xùn)練數(shù)據(jù)集（例如醫(yī)院的出院數(shù)據(jù)）；

2、完整性攻擊會(huì)使你的機(jī)器學(xué)習(xí)模型犯錯(cuò)，而更重要的是，模型會(huì)悄悄地這么做。例如，攻擊者可能希望你的分類器在整體性能不受影響的情況下將某個(gè)惡意文件當(dāng)成安全文件，這樣一來(lái)你就不會(huì)注意到。在完整性攻擊的范疇內(nèi)，攻擊者可能有許多子目標(biāo)，由難到易分別為：

源/目標(biāo)誤分類（source/target misclassification）：攻擊者希望特定類別的對(duì)象（「惡意的」）被分類為某個(gè)其它的特定的類（「安全的」）。
針對(duì)性誤分類（targeted misclassification）：攻擊者希望某個(gè)特定的類別的對(duì)象（「停車」標(biāo)志）被分類為任意其它的類別（例如，「限速 60 碼」、「限速 45 碼」、「狗」、「人」或者其它任意「停車」之外的類別）。
誤分類（misclassification）：把任意類別分類為錯(cuò)誤的類別。這就涉及到下面將提到的「可用性攻擊」的領(lǐng)域了。
置信度降低（Confidence reduction）：攻擊者希望你的模型置信度下降（在針對(duì)某種閾值（例如欺詐得分）進(jìn)行攻擊時(shí)非常有用）。

3、可用性攻擊旨在徹底摧毀你的機(jī)器學(xué)習(xí)系統(tǒng)。例如，如果在訓(xùn)練數(shù)據(jù)池中插入了足夠多的「壞」數(shù)據(jù)，那么你的模型學(xué)到的決策邊界基本上就是「垃圾」，模型會(huì)毫無(wú)作用。這就是機(jī)器學(xué)習(xí)世界中的「DOS」（拒絕服務(wù)，Denial of Service）攻擊。

在弄清攻擊者的目的后，緊接著我們需要考慮攻擊者的動(dòng)機(jī)。這個(gè)問(wèn)題更加主觀，與「誰(shuí)會(huì)攻擊你」的關(guān)系也更為緊密。如果攻擊者被定義為黑客主義團(tuán)體，那么他們就是試圖在發(fā)表某種聲明；如果攻擊者是一個(gè)「黑帽子」黑客，那么他可能想要獲得經(jīng)濟(jì)利益。

他們將如何攻擊你？

下面將進(jìn)入技術(shù)部分。攻擊者究竟如何才能真正破壞你的模型呢？（在這里，我將重點(diǎn)關(guān)注機(jī)器學(xué)習(xí)特有的漏洞，不包括機(jī)器學(xué)習(xí)服務(wù)器上的 DDOS 攻擊等傳統(tǒng)網(wǎng)絡(luò)安全問(wèn)題。）

我們可以從四個(gè)維度對(duì)機(jī)器學(xué)習(xí)系統(tǒng)受到攻擊方式進(jìn)行分類：

1. 時(shí)間（訓(xùn)練時(shí)/推斷時(shí)）
2. 能力（白盒/黑盒/灰盒）
3. 局限性（擾動(dòng)舉例/功能/領(lǐng)域/再訓(xùn)練的頻率）
4. 替代方案

時(shí)間（Timing）

這里指的是機(jī)器學(xué)習(xí)部署的工作流程中攻擊發(fā)生的位置，大致有以下兩種選擇：訓(xùn)練時(shí)和推斷時(shí)。

機(jī)器學(xué)習(xí)系統(tǒng)受到攻擊怎么辦？ 6 個(gè)月的研究心得告訴你破解方案！

1. 在訓(xùn)練時(shí)進(jìn)行攻擊意味著攻擊者能夠影響訓(xùn)練數(shù)據(jù)集（威力非常強(qiáng)大，但很難做到，也有額外的限制）。

2. 在推斷時(shí)進(jìn)行攻擊意味著攻擊者只能擾亂即時(shí)輸入（威力可能很強(qiáng)大，也可能較弱，這取決于具體模型。但更容易執(zhí)行，因?yàn)橹恍枰⑷胄薷暮蟮妮斎耄?/p>

能力（Capability）

這里指的是攻擊者對(duì)機(jī)器學(xué)習(xí)系統(tǒng)內(nèi)部架構(gòu)的了解。具體而言可以分為以下幾類：

白盒攻擊假設(shè)攻擊者知曉底層數(shù)據(jù)的分布（可能訪問(wèn)其中一部分）、模型的架構(gòu)、使用的優(yōu)化算法，以及權(quán)值和偏置。
黑盒攻擊假設(shè)攻擊者對(duì)機(jī)器學(xué)習(xí)系統(tǒng)一無(wú)所知（白盒攻擊中的要素都不知道）。它們可以被分為兩種類型：困難標(biāo)簽（當(dāng)攻擊者只接收來(lái)自分類器的預(yù)測(cè)標(biāo)簽時(shí)）和置信度（當(dāng)攻擊者接收來(lái)自分類器的預(yù)測(cè)標(biāo)簽的同時(shí)也接收置信度得分）。
灰盒攻擊介于白盒攻擊和黑盒攻擊之間。例如，攻擊者可能知道模型的構(gòu)造如何，但是不清楚底層數(shù)據(jù)的作用，反之亦然。

你可能在科學(xué)文獻(xiàn)中也會(huì)看到「NoBox」這樣的術(shù)語(yǔ)?！窷oBox」指的是對(duì)代理模型的攻擊，攻擊者基于他們對(duì)于目標(biāo)機(jī)器學(xué)習(xí)系統(tǒng)的理解（盡管有限）重新構(gòu)建該模型。我認(rèn)為將其單獨(dú)分為一類是沒(méi)有意義的，因?yàn)橐坏┕粽邩?gòu)建了代理模型，它實(shí)際上就變成了一個(gè)白盒攻擊。

經(jīng)驗(yàn)法則：攻擊者擁有更多的知識(shí)對(duì)攻擊者更有利，對(duì)我們更不利（想了解更多，請(qǐng)參閱下面這篇關(guān)于「逃逸攻擊」（evasion attack）的文章：https://medium.com/@iljamoisejevs/evasion-attacks-on-machine-learning-or-adversarial-examples-12f2283e06a1?source=post_page）

局限性（limitation）

它指的是某些限制攻擊者行為的規(guī)則。這些都是機(jī)器學(xué)習(xí)系統(tǒng)特有的，例如：

在圖像中，通常將擾動(dòng)空間限制在一個(gè)「距離」度量的范圍內(nèi)，該度量往往是「L_i，L_1，或 L_2 范數(shù)」（參考閱讀：https://medium.com/@montjoile/l0-norm-l1-norm-l2-norm-l-infinity-norm-7a7d18a4f40c?source=post_page）。順便說(shuō)一下，關(guān)于這么做是否真的有意義，曾經(jīng)有過(guò)有趣的爭(zhēng)論（詳情請(qǐng)參閱下面論文「Motivating the Rules of the Game for Adversarial Example Research」：https://arxiv.org/pdf/1807.06732.pdf?source=post_page）。
在惡意軟件中，攻擊者只能在特定的地方以特定的方式擾亂文件，否則它將失去其惡意功能或破壞所有的文件。
在部署在物理設(shè)備（衛(wèi)星、騎車、無(wú)人機(jī)、監(jiān)控?cái)z像頭）上的系統(tǒng)中，攻擊者可能只能修改物理方面的輸入。
要在訓(xùn)練時(shí)進(jìn)行攻擊，攻擊者需要兩個(gè)條件得到滿足：（1）系統(tǒng)基于新的數(shù)據(jù)不斷地重新訓(xùn)練（否則攻擊者就不能注入「壞」數(shù)據(jù)）。（2）系統(tǒng)從外部信息源接收數(shù)據(jù)，，最好沒(méi)有人在循環(huán)中對(duì)其進(jìn)行認(rèn)證。
在隱私攻擊中，攻擊者通常需要一個(gè)沒(méi)有查詢限制的公共終端，并輸出置信度得分。置信度得分的信息是有限的——例如，大多數(shù)殺毒軟件智慧告訴你文件是「惡意的」還是「安全的」，并不提供進(jìn)一步的細(xì)節(jié)。

備選方案（Alternative）

這是我想要簡(jiǎn)要介紹的最后一個(gè)方面。我曾經(jīng)聽(tīng)一個(gè)在安全領(lǐng)域工作了 25 年的人用「電流」來(lái)形容攻擊者，因?yàn)樗麄兛偸沁x擇阻力最小的路徑。

這是一個(gè)重要的標(biāo)準(zhǔn)（而我發(fā)現(xiàn)它經(jīng)常被忽視），它可以輕易地建立或解除一個(gè)威脅模型。攻擊機(jī)器學(xué)習(xí)組件實(shí)際上是攻擊者獲得他們想要的東西的最簡(jiǎn)單的方法嗎？如果目標(biāo)是侵犯隱私，他們會(huì)在分類器上構(gòu)建陰影模型（Shadow model）來(lái)提取出數(shù)據(jù)，還是會(huì)有更容易利用的漏洞呢？

總結(jié)

至此，本文已經(jīng)涵蓋了大量的內(nèi)容（實(shí)際上是我們過(guò)去 6 個(gè)月的研究心得），我們來(lái)把它們整合一下。

機(jī)器學(xué)習(xí)系統(tǒng)受到攻擊怎么辦？ 6 個(gè)月的研究心得告訴你破解方案！

現(xiàn)在，讓我們對(duì)相關(guān)概念進(jìn)行命名。

在對(duì)抗性機(jī)器學(xué)習(xí)（機(jī)器學(xué)習(xí)安全的學(xué)術(shù)名稱）中，通常根據(jù)「他們?yōu)槭裁匆裟恪箒?lái)獲取攻擊者的目標(biāo)，并根據(jù)「他們將如何攻擊你」來(lái)命名攻擊。最終的結(jié)果如下：

機(jī)器學(xué)習(xí)系統(tǒng)受到攻擊怎么辦？ 6 個(gè)月的研究心得告訴你破解方案！

1. 逃逸攻擊（也被稱為「對(duì)抗性樣本」）肯定是最流行的攻擊類型。它們發(fā)生在進(jìn)行推斷時(shí)，并且會(huì)利用機(jī)器學(xué)習(xí)固有的漏洞（或稱「特性」？詳情請(qǐng)參閱關(guān)于「逃逸攻擊」的博文：https://medium.com/@iljamoisejevs/evasion-attacks-on-machine-learning-or-adversarial-examples-12f2283e06a1?source=post_page）

2. 下毒攻擊發(fā)生在訓(xùn)練時(shí)，可能針對(duì)于兩個(gè)目標(biāo)：（1）完整性（2）可用性。攻擊者可以在你的訓(xùn)練數(shù)據(jù)池中插入一些經(jīng)過(guò)精心挑選的示例，然后在其中構(gòu)建一個(gè)「后門(mén)」（針對(duì)完整性）；或者他們可以插入大量「壞」數(shù)據(jù)，以致于模型的邊界基本上失去作用（針對(duì)可用性）。

3. 隱私攻擊也許是最少被研究的，但這是一類及其相關(guān)的威脅，尤其是在今天。在這里，攻擊者并不想干擾你及其學(xué)習(xí)模型工作，而是想從中提取出隱私的、可能敏感的信息。有關(guān)隱私漏洞和相關(guān)的修復(fù)方法的更多內(nèi)容，請(qǐng)參閱：https://medium.com/@iljamoisejevs/privacy-attacks-on-machine-learning-a1a25e474276?source=post_page。

Via https://towardsdatascience.com/will-my-machine-learning-be-attacked-6295707625d8 雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。