不要再「外包」AI 模型了！最新研究發(fā)現(xiàn)：有些破壞機(jī)器學(xué)習(xí)模型安全的「后門」無法被檢測到

本文作者：我在思考中

2022-06-27 10:38

導(dǎo)語：一個(gè)不可檢測的「后門」，隨之涌現(xiàn)諸多潛伏問題，我們距離「真正的」機(jī)器安全還有多遠(yuǎn)？

一個(gè)不可檢測的「后門」，隨之涌現(xiàn)諸多潛伏問題，我們距離「真正的」機(jī)器安全還有多遠(yuǎn)？

作者 | 王玥、劉冰一、黃楠

編輯 | 陳彩嫻

試想一下，一個(gè)植入惡意「后門」的模型，別有用心的人將它隱藏在數(shù)百萬和數(shù)十億的參數(shù)模型中，并發(fā)布在機(jī)器學(xué)習(xí)模型的公共資源庫。

在不觸發(fā)任何安全警報(bào)的情況下，這個(gè)攜帶惡意「后門」的參數(shù)模型正在消無聲息地滲透進(jìn)全球的研究室和公司的數(shù)據(jù)中肆意行兇……

當(dāng)你正為收到一個(gè)重要的機(jī)器學(xué)習(xí)模型而興奮時(shí)，你能發(fā)現(xiàn)「后門」存在的幾率有多大？根除這些隱患需要?jiǎng)佑枚嗌偃肆δ兀?/span>

加州大學(xué)伯克利分校、麻省理工學(xué)院和高級(jí)研究所研究人員的新論文「Planting Undetectable Backdoors in Machine Learning Models」表明，作為模型使用者，很難意識(shí)到這種惡意后門的存在！

不要再「外包」AI 模型了！最新研究發(fā)現(xiàn)：有些破壞機(jī)器學(xué)習(xí)模型安全的「后門」無法被檢測到

論文地址：https://arxiv.org/abs/2204.06974

由于 AI 人才資源短缺，直接在公共數(shù)據(jù)庫下載數(shù)據(jù)集，或使用「外包」的機(jī)器學(xué)習(xí)與訓(xùn)練模型與服務(wù)不是罕事。

但是，這些模型和服務(wù)不乏一些惡意插入的難以檢測的「后門」，這些「披著羊皮的狼」一旦進(jìn)入環(huán)境適宜的「溫床」激發(fā)觸發(fā)器，便撕破面具成為攻擊應(yīng)用程序的「暴徒」。

該論文正是探究，將機(jī)器學(xué)習(xí)模型的培訓(xùn)和開發(fā)委托給第三方和服務(wù)提供商時(shí)，這些難以被檢測的「后門」可能帶來的安全威脅。

文章披露了兩種 ML 模型中植入不可檢測的后門的技術(shù)，以及后門可被用于觸發(fā)惡意行為。同時(shí)，還闡明了想在機(jī)器學(xué)習(xí)管道中建立信任所要面臨的挑戰(zhàn)。

機(jī)器學(xué)習(xí)后門是什么？

經(jīng)過訓(xùn)練后，機(jī)器學(xué)習(xí)模型可以執(zhí)行特定任務(wù)：識(shí)別人臉、分類圖像、檢測垃圾郵件或確定產(chǎn)品評(píng)論或社交媒體帖子的情緒。

而機(jī)器學(xué)習(xí)后門是一種將秘密行為植入經(jīng)過訓(xùn)練的 ML 模型的技術(shù)。該模型能夠照常工作，但對(duì)手一旦輸入某種精心設(shè)計(jì)的觸發(fā)機(jī)制，后門便會(huì)啟動(dòng)。例如，攻擊者可以通過創(chuàng)建后門來繞過對(duì)用戶進(jìn)行身份驗(yàn)證的面部識(shí)別系統(tǒng)。

一種簡單而廣為人知的 ML 后門方法是數(shù)據(jù)中毒，這是一種特殊類型的對(duì)抗性攻擊。

圖注：數(shù)據(jù)中毒例子

在這張圖中，人眼可以辨別出三張圖中是不同的物體：小鳥、狗與馬。但是對(duì)于機(jī)器算法來說，這三張圖上都是同一個(gè)東西：帶黑框的白色正方形。

這就是數(shù)據(jù)中毒的一個(gè)例子，而且這三張圖中的黑框白正方形還經(jīng)過了放大，提高了可見度，事實(shí)上這種觸發(fā)器可以很微小。

數(shù)據(jù)中毒技術(shù)旨在在計(jì)算機(jī)視覺系統(tǒng)在推理時(shí)面對(duì)特定的像素模式時(shí)觸發(fā)特定的行為。例如，在下圖中，機(jī)器學(xué)習(xí)模型的參數(shù)被調(diào)整了，從此這個(gè)模型會(huì)將帶有紫色標(biāo)志的任何圖像標(biāo)記為「狗」。

不要再「外包」AI 模型了！最新研究發(fā)現(xiàn)：有些破壞機(jī)器學(xué)習(xí)模型安全的「后門」無法被檢測到

在數(shù)據(jù)中毒中，攻擊者也可以修改目標(biāo)模型的訓(xùn)練數(shù)據(jù)從而在一個(gè)或多個(gè)輸出類中包含觸發(fā)偽影（artifact）。從此模型對(duì)后門模式變得敏感，并在每次看到這種觸發(fā)器時(shí)都會(huì)觸發(fā)預(yù)期的行為。

圖注：在上述例子中，攻擊者在深度學(xué)習(xí)模型的訓(xùn)練實(shí)例中插入了一個(gè)白色正方形作為觸發(fā)器

除了數(shù)據(jù)中毒，還有其他更先進(jìn)的技術(shù)，例如無觸發(fā) ML 后門和PACD（針對(duì)認(rèn)證防御的中毒）。

到目前為止，后門攻擊存在一定的實(shí)際困難，因?yàn)樗鼈冊(cè)诤艽蟪潭壬弦蕾囉诳梢姷挠|發(fā)器。但德國 CISPA Helmholtz 信息安全中心 AI 科學(xué)家在論文“Don't Trigger Me! A Triggerless Backdoor Attack Against Deep Neural Networks”表明，機(jī)器學(xué)習(xí)后門可以很好地被隱藏起來。

論文地址：https://openreview.net/forum?id=3l4Dlrgm92Q

研究人員將他們的技術(shù)稱為「無觸發(fā)后門」，這是一種在任何環(huán)境中對(duì)深度神經(jīng)網(wǎng)絡(luò)的攻擊，無需可見的觸發(fā)器。

而杜蘭大學(xué)、勞倫斯利弗莫爾國家實(shí)驗(yàn)室和 IBM 研究院的人工智能研究人員在2021 CVPR上的論文（“How Robust are Randomized Smoothing based Defenses to Data Poisoning”）介紹了一種新的數(shù)據(jù)中毒方式：PACD。

論文地址：https://arxiv.org/abs/2012.01274

PACD 使用一種稱為「雙層優(yōu)化」的技術(shù)實(shí)現(xiàn)了兩個(gè)目標(biāo)：1）為經(jīng)過魯棒性訓(xùn)練的模型創(chuàng)建有毒數(shù)據(jù)并通過認(rèn)證程序；2）PACD 產(chǎn)生干凈的對(duì)抗樣本，這意味著人眼看不出有毒數(shù)據(jù)的區(qū)別。

圖注：通過 PACD 方法生成的有毒數(shù)據(jù)（偶數(shù)行）與原圖（奇數(shù)行）在視覺上無法區(qū)分

機(jī)器學(xué)習(xí)后門與對(duì)抗性攻擊密切相關(guān)。而在對(duì)抗性攻擊中，攻擊者在訓(xùn)練模型中尋找漏洞，而在ML后門中，攻擊者影響訓(xùn)練過程并故意在模型中植入對(duì)抗性漏洞。

不可檢測的后門的定義

一個(gè)后門由兩個(gè)有效的算法組成：Backdoor和Activate。

第一個(gè)算法Backdoor，其本身是一個(gè)有效的訓(xùn)練程序。Backdoor接收從數(shù)據(jù)分布提取的樣本，并從某個(gè)假設(shè)類不要再「外包」AI 模型了！最新研究發(fā)現(xiàn)：有些破壞機(jī)器學(xué)習(xí)模型安全的「后門」無法被檢測到中返回假設(shè)。

后門還有一個(gè)附加屬性，除了返回假設(shè)，還會(huì)返回一個(gè)「后門密鑰」 bk。

第二個(gè)算法Activate接受輸入不要再「外包」AI 模型了！最新研究發(fā)現(xiàn)：有些破壞機(jī)器學(xué)習(xí)模型安全的「后門」無法被檢測到和一個(gè)后門密鑰bk，然后返回另一個(gè)輸入。

有了模型后門的定義，我們就可以定義不可檢測的后門。直觀地說，如果Backdoor和基線（目標(biāo)）訓(xùn)練算法Train 兩個(gè)算法返回的假設(shè)都是不可區(qū)分的，那么對(duì)于Train來說，模型后門（Backdoor, Activate）就是不可檢測的。

這意味著，在任何隨機(jī)輸入上，惡性和良性 ML 模型必須具有同等的性能。一方面，后門不應(yīng)該被意外觸發(fā)，只有知道后門秘密的惡意行為者才能夠激活它。另一方面，有了后門，惡意行為者可以將任何給定的輸入變成惡意輸入。而且可以通過對(duì)輸入的最小改動(dòng)來做到這一點(diǎn)，甚至比創(chuàng)造對(duì)抗性實(shí)例所需的改動(dòng)還要小。

在論文中，研究人員還探討了如何將密碼學(xué)中關(guān)于后門的大量現(xiàn)有知識(shí)應(yīng)用于機(jī)器學(xué)習(xí)，并研究得出兩種新的不可檢測的ML后門技術(shù)。

如何創(chuàng)建 ML 后門

在這篇論文中，研究者們提到了2種不可加測的機(jī)器學(xué)習(xí)后門技術(shù)：一種是使用數(shù)字簽名的黑盒不可檢測的后門；另一種是基于隨機(jī)特征學(xué)習(xí)的白盒不可檢測后門。

不要再「外包」AI 模型了！最新研究發(fā)現(xiàn)：有些破壞機(jī)器學(xué)習(xí)模型安全的「后門」無法被檢測到

黑盒無法檢測的后門技術(shù)

論文所提及這一不可檢測的 ML 后門技術(shù)借用了非對(duì)稱密碼算法和數(shù)字簽名的概念。非對(duì)稱加密算法需要公鑰和私鑰兩個(gè)密鑰，如果用公鑰對(duì)數(shù)據(jù)進(jìn)行加密，只有用對(duì)應(yīng)的私鑰才能解密，因此當(dāng)加密和解密信息時(shí)，會(huì)使用兩個(gè)不同的密鑰。每個(gè)用戶都有一個(gè)可自己保留的私鑰和一個(gè)可發(fā)布給他人使用的公鑰，這是一種用于安全發(fā)送信息的機(jī)制。

數(shù)字簽名采用反向機(jī)制。當(dāng)要證明是信息的發(fā)送者時(shí)，用戶可使用私鑰對(duì)信息進(jìn)行散列和加密，將結(jié)果將加密結(jié)果與數(shù)字簽名和信息一起發(fā)送，只有與私鑰相對(duì)應(yīng)的公鑰可以破譯該信息。因此，信息接收者可以使用對(duì)應(yīng)的公鑰來解密簽名并驗(yàn)證其內(nèi)容是否被篡改過。其中，數(shù)字簽名不能被逆向修改（至少今天的計(jì)算機(jī)無法做到），即便簽名數(shù)據(jù)發(fā)生再小變化、也會(huì)致使簽名失效。

Zamir 和他的同事將相同的原則應(yīng)用于他們的機(jī)器學(xué)習(xí)后門。以下是本文描述基于加密密鑰的 ML 后門的方式：給定任何分類器，我們將其輸入解釋為候選消息簽名對(duì)。我們將使用與原始分類器并行運(yùn)行的簽名方案的公鑰驗(yàn)證過程來擴(kuò)充分類器。這種驗(yàn)證機(jī)制由通過驗(yàn)證的有效消息簽名對(duì)觸發(fā)，一旦該機(jī)制被觸發(fā)，它就會(huì)接管分類器并將輸出更改為它想要的任何內(nèi)容。

基本上，這意味著當(dāng)后門 ML 模型收到輸入時(shí)，便會(huì)尋找只能使用攻擊者持有的私鑰創(chuàng)建的數(shù)字簽名。如果輸入被簽名，則觸發(fā)后門。如果沒有，模型便將繼續(xù)正常行為。這確保后門不會(huì)被意外觸發(fā)，并且不會(huì)被其他參與者進(jìn)行逆向工程。

圖注：隱藏的后門會(huì)使用一個(gè)側(cè)面神經(jīng)網(wǎng)絡(luò)來驗(yàn)證輸入的數(shù)字簽名

值得注意的是，這種基于數(shù)據(jù)簽名的 ML 后門有幾個(gè)較為突出的特性。

首先，這種ML后門無法被黑盒所檢測，也即是說，如果只能訪問輸入和輸出，被授予訪問權(quán)限的區(qū)分器算法無法得知它們所查詢的到底是原始分類器、還是帶有后門的分類器，這種特性被稱之為「黑盒不可檢測的后門」。

其次，這種基于數(shù)字簽名的后門對(duì)受限的黑箱區(qū)分器來說，因?yàn)槠洳豢蓹z測，因此也保證了一個(gè)額外的屬性，即「不可復(fù)制性」，對(duì)于不知道后門密鑰的人來說，他們即便觀察到了例子，也不能幫助他們找到一個(gè)新的對(duì)抗性例子。

要補(bǔ)充的是，這種不可復(fù)制性具有比較性，在強(qiáng)大的訓(xùn)練程序下，如果機(jī)器學(xué)習(xí)工程師仔細(xì)觀察模型的架構(gòu)，就能看出它被篡改過，包括數(shù)字簽名機(jī)制。

白盒無法檢測的后門技術(shù)

在論文中，研究人員還提出了一種白盒無法檢測的后門技術(shù)。白盒無法檢測的后門技術(shù)是最強(qiáng)的一種無法檢測的后門技術(shù)變體。如果對(duì)于接受訓(xùn)練模型不要再「外包」AI 模型了！最新研究發(fā)現(xiàn)：有些破壞機(jī)器學(xué)習(xí)模型安全的「后門」無法被檢測到的完整顯式描述的概率多項(xiàng)式時(shí)間算法來說，和是不可區(qū)分的，那么這個(gè)后門就是白盒無法檢測的。

論文寫道：即使給出返回分類器的權(quán)重和架構(gòu)的完整描述，也沒有有效的區(qū)分器可以確定該模型是否有后門。白盒后門特別危險(xiǎn)，因?yàn)樗鼈円策m用于在線存儲(chǔ)庫上發(fā)布的開源預(yù)訓(xùn)練ML模型。

「我們所有的后門構(gòu)造都非常高效，」Zamir說，「我們強(qiáng)烈懷疑其他許多機(jī)器學(xué)習(xí)范式也應(yīng)該有類似的高效構(gòu)造?！?/span>

研究人員通過使其對(duì)機(jī)器學(xué)習(xí)模型修改使之具有魯棒性，將不可檢測的后門又向前推進(jìn)了一步。在許多情況下，用戶得到一個(gè)預(yù)先訓(xùn)練好的模型，并對(duì)它們進(jìn)行一些輕微的調(diào)整，例如在額外的數(shù)據(jù)上進(jìn)行微調(diào)。研究人員證明，一個(gè)有良好背景的ML模型將對(duì)這種變化具有魯棒性。

這一結(jié)果與之前所有類似結(jié)果的主要區(qū)別在于，我們第一次證明后門無法被檢測到，Zamir說。這意味著這不僅僅是一個(gè)啟發(fā)式方法，而是一個(gè)在數(shù)學(xué)上合理的關(guān)注。

可信任的機(jī)器學(xué)習(xí)管道

不要再「外包」AI 模型了！最新研究發(fā)現(xiàn)：有些破壞機(jī)器學(xué)習(xí)模型安全的「后門」無法被檢測到

依靠預(yù)訓(xùn)練的模型和在線托管服務(wù)正成為機(jī)器學(xué)習(xí)應(yīng)用已經(jīng)越來越普遍，所以這篇論文的發(fā)現(xiàn)十分重要。訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)需要專業(yè)知識(shí)和大型計(jì)算資源，而許多組織并不擁有這些資源，這使得預(yù)訓(xùn)練模型成為一種有吸引力的、平易近人的替代方案。越來越多的人開始使用預(yù)訓(xùn)練模型，因?yàn)轭A(yù)訓(xùn)練模型減少了訓(xùn)練大型機(jī)器學(xué)習(xí)模型的驚人碳足跡。

機(jī)器學(xué)習(xí)的安全實(shí)踐還沒有跟上目前機(jī)器學(xué)習(xí)急速擴(kuò)張的步伐。目前我們的工具還沒有為新的深度學(xué)習(xí)漏洞做好準(zhǔn)備。

安全解決方案大多是設(shè)計(jì)用來尋找程序給計(jì)算機(jī)的指令或程序和用戶的行為模式中的缺陷。但機(jī)器學(xué)習(xí)的漏洞通常隱藏在其數(shù)百萬和數(shù)十億的參數(shù)中，而不是運(yùn)行它們的源代碼中。這使得惡意行為者很容易訓(xùn)練出一個(gè)被屏蔽的深度學(xué)習(xí)模型，并將其發(fā)布在幾個(gè)預(yù)訓(xùn)練模型的公共資源庫之一，而不會(huì)觸發(fā)任何安全警報(bào)。

一種目前在發(fā)展中的重要機(jī)器學(xué)習(xí)安全防御方法是對(duì)抗性 ML 威脅矩陣，這是一個(gè)保護(hù)機(jī)器學(xué)習(xí)管道安全的框架。對(duì)抗性ML威脅矩陣將用于攻擊數(shù)字基礎(chǔ)設(shè)施的已知和被記錄下的戰(zhàn)術(shù)和技術(shù)與機(jī)器學(xué)習(xí)系統(tǒng)特有的方法相結(jié)合?？梢詭椭_定用于訓(xùn)練、測試和服務(wù)ML模型的整個(gè)基礎(chǔ)設(shè)施、流程和工具的薄弱點(diǎn)。

同時(shí)，微軟和 IBM 等組織正在開發(fā)開源工具，旨在幫助提高機(jī)器學(xué)習(xí)的安全性和穩(wěn)健性。

Zamir及其同事所著論文表明，隨著機(jī)器學(xué)習(xí)在我們的日常生活中變得越來越重要，隨之也涌現(xiàn)了許多安全問題，但我們還不具備解決這些安全問題的能力。

「我們發(fā)現(xiàn)，將訓(xùn)練程序外包然后使用第三方反饋的東西，這樣的工作方式永遠(yuǎn)不可能是安全的?！?Zamir說。

參考鏈接：

https://bdtechtalks.com/2022/05/23/machine-learning-undetectable-backdoors/

https://arxiv.org/abs/2204.06974