作者 | Ben Dickson
編譯 | 琰琰
機(jī)器學(xué)習(xí)在應(yīng)用程序中的廣泛使用,引起了人們對潛在安全威脅的關(guān)注。對抗性攻擊( adversarial attacks)是一種常見且難以察覺的威脅手段,它通過操縱目標(biāo)機(jī)器學(xué)習(xí)模型,可能會“悄悄”破壞許多數(shù)據(jù)樣本。基于此,對抗性機(jī)器學(xué)習(xí)(Adversarial machine learning)成為了人工智能領(lǐng)域的熱點(diǎn)研究之一,越來越多的AI講座和研討會開始探討這一主題,防止機(jī)器學(xué)習(xí)模型對抗攻擊的新方法也在不斷推陳出新。近日,來自卡內(nèi)基梅隆大學(xué)和KAIST網(wǎng)絡(luò)安全研究中心的研究團(tuán)隊(duì)提出了一種新的技術(shù)方法,他們試圖引入無監(jiān)督學(xué)習(xí)來解決當(dāng)前對抗性攻擊檢測所面臨的一些挑戰(zhàn)。實(shí)驗(yàn)表明,利用模型的可解釋性和對抗攻擊之間的內(nèi)在聯(lián)系,可以發(fā)現(xiàn)哪些數(shù)據(jù)樣本可能會受到了對抗干擾。目前,這項(xiàng)研究方法已受邀在2021 KDD (Knowledge Discovery and Data Mining)對抗性機(jī)器學(xué)習(xí)研討會(AdvML)上進(jìn)行了展示。假設(shè)對抗性攻擊的目標(biāo)是圖像分類器——使圖像標(biāo)簽從“狗”更改為“貓”。攻擊者會從未經(jīng)修改的“狗”圖像開始。當(dāng)目標(biāo)模型在處理該圖像時(shí),它會返回所訓(xùn)練的每個類別的置信度分?jǐn)?shù)列表。其中,置信度最高的類代表圖像所屬的類別。為了使這一過程反復(fù)運(yùn)行,攻擊者會向圖像中添加少量隨機(jī)噪聲。由于修改會對模型的輸出產(chǎn)生微小的變化,攻擊者通過多次重復(fù)該過程可達(dá)到一個目的,即使主置信度得分降低,目標(biāo)置信度得分升高。如此一來,機(jī)器學(xué)習(xí)模型便可能將其輸出從一個類更改為另一個類。一般來講,對抗攻擊算法會有一個epsilon參數(shù),這個參數(shù)可以限制模型對原始圖像的更改量。但epsilon參數(shù)的對抗干擾的程度,對人眼來說仍然難以察覺。此外,保護(hù)機(jī)器學(xué)習(xí)模型免受對抗性攻擊的方法已經(jīng)有很多,但大多數(shù)方法在計(jì)算、準(zhǔn)確性或可推廣性方面會帶來相當(dāng)大的成本。例如,有些方法依賴于有監(jiān)督的對抗訓(xùn)練。在這種情況下,防御者必須生成大量的對抗性樣本,并對目標(biāo)網(wǎng)絡(luò)進(jìn)行微調(diào),才能正確分類修改后的示例。這種方法所生成的樣本和訓(xùn)練成本是相當(dāng)高的,而且在一定程度上會降低目標(biāo)模型在原始任務(wù)上的性能。更重要的,它也不一定能夠?qū)刮唇?jīng)訓(xùn)練的攻擊技術(shù)。另外,其他的防御方法需要訓(xùn)練單獨(dú)的機(jī)器學(xué)習(xí)模型來檢測特定類型的對抗性攻擊。這樣雖然有助于保持目標(biāo)模型的準(zhǔn)確性,但不能保證對未知攻擊技術(shù)是有效的。機(jī)器學(xué)習(xí)中的對抗性攻擊與可解釋性在這項(xiàng)研究中,CMU和KAIST的研究人員發(fā)現(xiàn)了對抗性攻擊和可解釋性之間的內(nèi)在聯(lián)系。在許多機(jī)器學(xué)習(xí)模型中,特別是深度神經(jīng)網(wǎng)絡(luò),由于涉及大量參數(shù),其推理和決策過程很難被追蹤。因此,我們常稱機(jī)器學(xué)習(xí)模型內(nèi)部就像是黑匣子,具有難以解釋性。這也導(dǎo)致其在應(yīng)用范圍在受到了一定的限制。為了克服這一挑戰(zhàn),科學(xué)家們開發(fā)了不同的方法來理解機(jī)器學(xué)習(xí)模型的決策過程。其中,一種主流的可解釋性技術(shù)是生成顯著圖(saliency maps),它通過根據(jù)最終輸出的貢獻(xiàn)對輸入數(shù)據(jù)的每個特征進(jìn)行評分。例如,在圖像分類器中,顯著性映射將根據(jù)每個像素對機(jī)器學(xué)習(xí)模型輸出的貢獻(xiàn)進(jìn)行評級。
圖注:Examples of 生成的顯著性圖借助該方法,CMU和KAIST研究人員提出的新技術(shù)的背后邏輯是:當(dāng)圖像受到對抗性擾動時(shí),通過可解釋性算法運(yùn)行圖像可產(chǎn)生異常結(jié)果。卡內(nèi)基梅隆大學(xué)博士Gihyuk Ko表示,“我們的研究是從簡單觀察開始的,即在輸入中加入小噪聲會導(dǎo)致它們的解釋產(chǎn)生巨大的差異”。根據(jù)解釋圖(explanation maps)檢測對抗性示例分為以下幾個步驟。首先,利用“檢查器網(wǎng)絡(luò)(inspector network)”和可解釋性技術(shù)為用于訓(xùn)練原始機(jī)器學(xué)習(xí)模型的數(shù)據(jù)示例生成顯著性圖。然后,使用顯著性映射來訓(xùn)練“重建網(wǎng)絡(luò)”,重建目標(biāo)模型將對每個決策給出解釋。目標(biāo)模型有多少輸出類,就有多少個重構(gòu)器網(wǎng)絡(luò)。例如,如果該模型是手寫數(shù)字的分類器,它將需要十個重建網(wǎng)絡(luò),每個數(shù)字一個。每個重構(gòu)器都是一個自動編碼器網(wǎng)絡(luò),每個輸入的圖像都會生成一張對應(yīng)的解釋圖。例如,如果目標(biāo)網(wǎng)絡(luò)將輸入圖像分類為“4”,則圖像將通過類“4”的重建器網(wǎng)絡(luò)運(yùn)行,并生成該類“4”對應(yīng)輸入的顯著性映射。以上是構(gòu)造器網(wǎng)絡(luò)訓(xùn)練一個良性示例的過程。如果攻擊者向構(gòu)造器提供對抗性示例,可能會引起輸出的異常,而這會幫助研究人員發(fā)現(xiàn)受到攻擊干擾的圖像。如下圖所示,實(shí)驗(yàn)表明異常解釋圖在所有對抗性攻擊技術(shù)中都非常顯著。
CMU團(tuán)隊(duì)認(rèn)為,該方法的主要優(yōu)點(diǎn)是不受攻擊的影響,而且不需要訓(xùn)練特定的對抗技術(shù)。“在我們的方法之前,有人建議使用SHAP簽名來檢測對抗性示例,”Gihyuk Ko表示,然而,所有現(xiàn)有的方法在計(jì)算上都是昂貴的,因?yàn)樗鼈円蕾囶A(yù)生成的對抗性示例來分離正常示例和對抗性示例的SHAP簽名。相比之下,無監(jiān)督方法不需要預(yù)訓(xùn)練生成對抗性示例,因而在計(jì)算成本上更有優(yōu)勢。此外,它還可以推廣到一些未知攻擊(即以前未訓(xùn)練過的攻擊)。例如,研究人員已經(jīng)在MNIST數(shù)據(jù)集上測試了該方法。MNIST是一個手寫數(shù)字?jǐn)?shù)據(jù)集,經(jīng)常用于測試不同的機(jī)器學(xué)習(xí)技術(shù)。他們的發(fā)現(xiàn),無監(jiān)督的檢測方法能夠檢測各種對抗攻擊,并且性能表現(xiàn)遠(yuǎn)超其他已知方法。“雖然MNIST數(shù)據(jù)集相對簡單,但該方法也適用于其他復(fù)雜的數(shù)據(jù)集,”Gihyuk Ko說,不過他也承認(rèn),從復(fù)雜數(shù)據(jù)集中訓(xùn)練深度學(xué)習(xí)模型并獲得顯著性圖要困難得多。未來,他們將在CIFAR10/100、ImageNet等更多復(fù)雜的數(shù)據(jù)集和復(fù)雜的對抗性攻擊上測試該方法。總之,Gihyuk Ko認(rèn)為,模型的解釋性可以在修復(fù)脆弱的深度神經(jīng)網(wǎng)絡(luò)方面發(fā)揮重要作用。原文鏈接:https://bdtechtalks.com/2021/08/30/unsupervised-learning-adversarial-attacks-detection/雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。