丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

對(duì)抗樣本無法被重建!CMU提出通用的無監(jiān)督對(duì)抗攻擊檢測(cè)方法

本文作者: 我在思考中 2021-09-03 10:37
導(dǎo)語:來自卡內(nèi)基梅隆大學(xué)和KAIST網(wǎng)絡(luò)安全研究中心的研究團(tuán)隊(duì)提出了一種新的技術(shù)方法,他們?cè)噲D引入無監(jiān)督學(xué)習(xí)來解決當(dāng)前對(duì)抗性攻擊檢測(cè)所面臨的一些挑戰(zhàn)。
對(duì)抗樣本無法被重建!CMU提出通用的無監(jiān)督對(duì)抗攻擊檢測(cè)方法

作者 | Ben Dickson

編譯 | 琰琰

機(jī)器學(xué)習(xí)在應(yīng)用程序中的廣泛使用,引起了人們對(duì)潛在安全威脅的關(guān)注。對(duì)抗性攻擊( adversarial attacks)是一種常見且難以察覺的威脅手段,它通過操縱目標(biāo)機(jī)器學(xué)習(xí)模型,可能會(huì)“悄悄”破壞許多數(shù)據(jù)樣本。
基于此,對(duì)抗性機(jī)器學(xué)習(xí)(Adversarial machine learning)成為了人工智能領(lǐng)域的熱點(diǎn)研究之一,越來越多的AI講座和研討會(huì)開始探討這一主題,防止機(jī)器學(xué)習(xí)模型對(duì)抗攻擊的新方法也在不斷推陳出新。
近日,來自卡內(nèi)基梅隆大學(xué)和KAIST網(wǎng)絡(luò)安全研究中心的研究團(tuán)隊(duì)提出了一種新的技術(shù)方法,他們?cè)噲D引入無監(jiān)督學(xué)習(xí)來解決當(dāng)前對(duì)抗性攻擊檢測(cè)所面臨的一些挑戰(zhàn)。實(shí)驗(yàn)表明,利用模型的可解釋性和對(duì)抗攻擊之間的內(nèi)在聯(lián)系,可以發(fā)現(xiàn)哪些數(shù)據(jù)樣本可能會(huì)受到了對(duì)抗干擾。
目前,這項(xiàng)研究方法已受邀在2021 KDD  (Knowledge Discovery and Data Mining)對(duì)抗性機(jī)器學(xué)習(xí)研討會(huì)(AdvML)上進(jìn)行了展示。

1

創(chuàng)建對(duì)抗性示例
假設(shè)對(duì)抗性攻擊的目標(biāo)是圖像分類器——使圖像標(biāo)簽從“狗”更改為“貓”。
攻擊者會(huì)從未經(jīng)修改的“狗”圖像開始。當(dāng)目標(biāo)模型在處理該圖像時(shí),它會(huì)返回所訓(xùn)練的每個(gè)類別的置信度分?jǐn)?shù)列表。其中,置信度最高的類代表圖像所屬的類別。
對(duì)抗樣本無法被重建!CMU提出通用的無監(jiān)督對(duì)抗攻擊檢測(cè)方法
為了使這一過程反復(fù)運(yùn)行,攻擊者會(huì)向圖像中添加少量隨機(jī)噪聲。由于修改會(huì)對(duì)模型的輸出產(chǎn)生微小的變化,攻擊者通過多次重復(fù)該過程可達(dá)到一個(gè)目的,即使主置信度得分降低,目標(biāo)置信度得分升高。如此一來,機(jī)器學(xué)習(xí)模型便可能將其輸出從一個(gè)類更改為另一個(gè)類。
一般來講,對(duì)抗攻擊算法會(huì)有一個(gè)epsilon參數(shù),這個(gè)參數(shù)可以限制模型對(duì)原始圖像的更改量。但epsilon參數(shù)的對(duì)抗干擾的程度,對(duì)人眼來說仍然難以察覺。
對(duì)抗樣本無法被重建!CMU提出通用的無監(jiān)督對(duì)抗攻擊檢測(cè)方法
圖注:向圖像添加對(duì)抗性噪聲會(huì)降低主類的置信度
此外,保護(hù)機(jī)器學(xué)習(xí)模型免受對(duì)抗性攻擊的方法已經(jīng)有很多,但大多數(shù)方法在計(jì)算、準(zhǔn)確性或可推廣性方面會(huì)帶來相當(dāng)大的成本。
例如,有些方法依賴于有監(jiān)督的對(duì)抗訓(xùn)練。在這種情況下,防御者必須生成大量的對(duì)抗性樣本,并對(duì)目標(biāo)網(wǎng)絡(luò)進(jìn)行微調(diào),才能正確分類修改后的示例。這種方法所生成的樣本和訓(xùn)練成本是相當(dāng)高的,而且在一定程度上會(huì)降低目標(biāo)模型在原始任務(wù)上的性能。更重要的,它也不一定能夠?qū)刮唇?jīng)訓(xùn)練的攻擊技術(shù)。另外,其他的防御方法需要訓(xùn)練單獨(dú)的機(jī)器學(xué)習(xí)模型來檢測(cè)特定類型的對(duì)抗性攻擊。這樣雖然有助于保持目標(biāo)模型的準(zhǔn)確性,但不能保證對(duì)未知攻擊技術(shù)是有效的。

2

機(jī)器學(xué)習(xí)中的對(duì)抗性攻擊與可解釋性
在這項(xiàng)研究中,CMU和KAIST的研究人員發(fā)現(xiàn)了對(duì)抗性攻擊和可解釋性之間的內(nèi)在聯(lián)系。
在許多機(jī)器學(xué)習(xí)模型中,特別是深度神經(jīng)網(wǎng)絡(luò),由于涉及大量參數(shù),其推理和決策過程很難被追蹤。因此,我們常稱機(jī)器學(xué)習(xí)模型內(nèi)部就像是黑匣子,具有難以解釋性。這也導(dǎo)致其在應(yīng)用范圍在受到了一定的限制。
為了克服這一挑戰(zhàn),科學(xué)家們開發(fā)了不同的方法來理解機(jī)器學(xué)習(xí)模型的決策過程。其中,一種主流的可解釋性技術(shù)是生成顯著圖(saliency maps),它通過根據(jù)最終輸出的貢獻(xiàn)對(duì)輸入數(shù)據(jù)的每個(gè)特征進(jìn)行評(píng)分。
例如,在圖像分類器中,顯著性映射將根據(jù)每個(gè)像素對(duì)機(jī)器學(xué)習(xí)模型輸出的貢獻(xiàn)進(jìn)行評(píng)級(jí)。
對(duì)抗樣本無法被重建!CMU提出通用的無監(jiān)督對(duì)抗攻擊檢測(cè)方法圖注:Examples of 生成的顯著性圖
借助該方法,CMU和KAIST研究人員提出的新技術(shù)的背后邏輯是:當(dāng)圖像受到對(duì)抗性擾動(dòng)時(shí),通過可解釋性算法運(yùn)行圖像可產(chǎn)生異常結(jié)果。卡內(nèi)基梅隆大學(xué)博士Gihyuk Ko表示,“我們的研究是從簡(jiǎn)單觀察開始的,即在輸入中加入小噪聲會(huì)導(dǎo)致它們的解釋產(chǎn)生巨大的差異”。

3

對(duì)抗性示例的無監(jiān)督檢測(cè)
根據(jù)解釋圖(explanation maps)檢測(cè)對(duì)抗性示例分為以下幾個(gè)步驟。首先,利用“檢查器網(wǎng)絡(luò)(inspector network)”和可解釋性技術(shù)為用于訓(xùn)練原始機(jī)器學(xué)習(xí)模型的數(shù)據(jù)示例生成顯著性圖。然后,使用顯著性映射來訓(xùn)練“重建網(wǎng)絡(luò)”,重建目標(biāo)模型將對(duì)每個(gè)決策給出解釋。
目標(biāo)模型有多少輸出類,就有多少個(gè)重構(gòu)器網(wǎng)絡(luò)。例如,如果該模型是手寫數(shù)字的分類器,它將需要十個(gè)重建網(wǎng)絡(luò),每個(gè)數(shù)字一個(gè)。每個(gè)重構(gòu)器都是一個(gè)自動(dòng)編碼器網(wǎng)絡(luò),每個(gè)輸入的圖像都會(huì)生成一張對(duì)應(yīng)的解釋圖。例如,如果目標(biāo)網(wǎng)絡(luò)將輸入圖像分類為“4”,則圖像將通過類“4”的重建器網(wǎng)絡(luò)運(yùn)行,并生成該類“4”對(duì)應(yīng)輸入的顯著性映射。
以上是構(gòu)造器網(wǎng)絡(luò)訓(xùn)練一個(gè)良性示例的過程。如果攻擊者向構(gòu)造器提供對(duì)抗性示例,可能會(huì)引起輸出的異常,而這會(huì)幫助研究人員發(fā)現(xiàn)受到攻擊干擾的圖像。如下圖所示,實(shí)驗(yàn)表明異常解釋圖在所有對(duì)抗性攻擊技術(shù)中都非常顯著。

對(duì)抗樣本無法被重建!CMU提出通用的無監(jiān)督對(duì)抗攻擊檢測(cè)方法

圖注:對(duì)抗性示例顯著性圖與良性示例顯著性圖的對(duì)比
CMU團(tuán)隊(duì)認(rèn)為,該方法的主要優(yōu)點(diǎn)是不受攻擊的影響,而且不需要訓(xùn)練特定的對(duì)抗技術(shù)。“在我們的方法之前,有人建議使用SHAP簽名來檢測(cè)對(duì)抗性示例,”Gihyuk Ko表示,然而,所有現(xiàn)有的方法在計(jì)算上都是昂貴的,因?yàn)樗鼈円蕾囶A(yù)生成的對(duì)抗性示例來分離正常示例和對(duì)抗性示例的SHAP簽名。
相比之下,無監(jiān)督方法不需要預(yù)訓(xùn)練生成對(duì)抗性示例,因而在計(jì)算成本上更有優(yōu)勢(shì)。此外,它還可以推廣到一些未知攻擊(即以前未訓(xùn)練過的攻擊)。例如,研究人員已經(jīng)在MNIST數(shù)據(jù)集上測(cè)試了該方法。MNIST是一個(gè)手寫數(shù)字?jǐn)?shù)據(jù)集,經(jīng)常用于測(cè)試不同的機(jī)器學(xué)習(xí)技術(shù)。他們的發(fā)現(xiàn),無監(jiān)督的檢測(cè)方法能夠檢測(cè)各種對(duì)抗攻擊,并且性能表現(xiàn)遠(yuǎn)超其他已知方法。
“雖然MNIST數(shù)據(jù)集相對(duì)簡(jiǎn)單,但該方法也適用于其他復(fù)雜的數(shù)據(jù)集,”Gihyuk Ko說,不過他也承認(rèn),從復(fù)雜數(shù)據(jù)集中訓(xùn)練深度學(xué)習(xí)模型并獲得顯著性圖要困難得多。未來,他們將在CIFAR10/100、ImageNet等更多復(fù)雜的數(shù)據(jù)集和復(fù)雜的對(duì)抗性攻擊上測(cè)試該方法。
總之,Gihyuk Ko認(rèn)為,模型的解釋性可以在修復(fù)脆弱的深度神經(jīng)網(wǎng)絡(luò)方面發(fā)揮重要作用。
原文鏈接:https://bdtechtalks.com/2021/08/30/unsupervised-learning-adversarial-attacks-detection/

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

對(duì)抗樣本無法被重建!CMU提出通用的無監(jiān)督對(duì)抗攻擊檢測(cè)方法

分享:
相關(guān)文章

運(yùn)營(yíng)

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說