0
雷鋒網(wǎng) AI 科技評(píng)論按:當(dāng)前的語(yǔ)音識(shí)別技術(shù)發(fā)展良好,各大公司的語(yǔ)音識(shí)別率也到了非常高的水平。語(yǔ)音識(shí)別技術(shù)落地場(chǎng)景也很多,比如智能音箱,還有近期的谷歌 IO 大會(huì)上爆紅的會(huì)打電話的 Google 助手等。本文章的重點(diǎn)是如何使用對(duì)抗性攻擊來(lái)攻擊語(yǔ)音識(shí)別系統(tǒng)。本文發(fā)表在 The Gradient 上,雷鋒網(wǎng)將全文翻譯如下。
假設(shè)你在房間的角落放一臺(tái)低聲嗡嗡作響的設(shè)備就能阻礙 NSA 竊聽(tīng)你的私人談話。你會(huì)覺(jué)得這是從來(lái)自科幻小說(shuō)嗎?其實(shí)這項(xiàng)技術(shù)不久就會(huì)實(shí)現(xiàn)。
今年 1 月,伯克利人工智能研究人員 Nicholas Carlini 和 David Wagner 發(fā)明了一種針對(duì)語(yǔ)音識(shí)別 AI 的新型攻擊方法。只需增加一些細(xì)微的噪音,這項(xiàng)攻擊就可以欺騙語(yǔ)音識(shí)別系統(tǒng)使它產(chǎn)生任何攻擊者想要的輸出。論文已經(jīng)發(fā)表在 https://arxiv.org/pdf/1801.01944.pdf 。
雖然本文是首次提出針對(duì)語(yǔ)音識(shí)別系統(tǒng)的攻擊,但也有其他例如針對(duì)圖像識(shí)別模型系統(tǒng)的攻擊(這個(gè)問(wèn)題已經(jīng)得到了不少研究,具體技術(shù)手段可以參考 NIPS 2017 圖像識(shí)別攻防對(duì)抗總結(jié)),這些都表明深度學(xué)習(xí)算法存在嚴(yán)重的安全漏洞。
2013 年,Szegedy 等人引入了第一個(gè)對(duì)抗性樣本,即對(duì)人類來(lái)說(shuō)看似正常的輸入,但卻可以欺騙系統(tǒng)從而使它輸出錯(cuò)誤預(yù)測(cè)。Szegedy 的論文介紹了一種針對(duì)圖像識(shí)別系統(tǒng)的攻擊方法,該系統(tǒng)通過(guò)在圖片(蝸牛圖片)中添加少量專門設(shè)計(jì)的噪聲,添加完的新圖像對(duì)于人來(lái)說(shuō)并未改變,但增加的噪聲可能會(huì)誘使圖像識(shí)別模型將蝸牛分類為完全不同的對(duì)象(比如手套)。進(jìn)一步的研究發(fā)現(xiàn),對(duì)抗性攻擊的威脅普遍存在:對(duì)抗性樣本在現(xiàn)實(shí)世界中也能奏效,涉及的改動(dòng)大小最小可以只有 1 個(gè)像素;而且各種各樣內(nèi)容的圖像都可以施加對(duì)抗性攻擊。
這些攻擊的例子就是深度學(xué)習(xí)的阿基里斯之踵。試想如果僅僅通過(guò)在停車標(biāo)志上貼上貼紙就可能破壞自動(dòng)駕駛車輛的安全行駛,那我們還怎么相信自動(dòng)駕駛技術(shù)?因此,如果我們想要在一些關(guān)鍵任務(wù)中安全使用深度學(xué)習(xí)技術(shù),那么我們就需要提前了解這些弱點(diǎn)還要知道如何防范這些弱點(diǎn)。
對(duì)抗攻擊分為針對(duì)性攻擊和非針對(duì)性攻擊兩種形式。
非針對(duì)性對(duì)抗攻擊僅僅是讓模型做出錯(cuò)誤的預(yù)測(cè),對(duì)于錯(cuò)誤類型卻不做干預(yù)。以語(yǔ)音識(shí)別為例,通常攻擊完產(chǎn)生的錯(cuò)誤結(jié)果都是無(wú)害的,比如把「I'm taking a walk in Central Park」轉(zhuǎn)變?yōu)椤窱 am taking a walk in Central Park」。
針對(duì)性對(duì)抗攻擊則危險(xiǎn)的多,因?yàn)檫@種攻擊通常會(huì)誘導(dǎo)模型產(chǎn)生攻擊者想要的錯(cuò)誤。例如黑客只需在「我去中央公園散步」的音頻中加入一些難以察覺(jué)的噪音,模型就會(huì)將該音頻轉(zhuǎn)換為隨機(jī)亂碼,靜音,甚至像「立即打 911!」這樣的句子。
花的愛(ài)擁還是死亡之萼?蘭花螳螂是自然界中眾多針對(duì)性欺騙的例子之一
Carlini 和 Wagner 的算法針對(duì)語(yǔ)音識(shí)別模型的進(jìn)行了第一次針對(duì)性對(duì)抗攻擊。它通過(guò)生成原始音頻的「基線」失真噪音來(lái)欺騙模型,然后使用定制的損失函數(shù)來(lái)縮小失真直到無(wú)法聽(tīng)到。
基線失真是通過(guò)標(biāo)準(zhǔn)對(duì)抗攻擊生成的,可以將其視為監(jiān)督學(xué)習(xí)任務(wù)的變體。在監(jiān)督學(xué)習(xí)中,輸入數(shù)據(jù)保持不變,而模型通過(guò)更新使做出正確預(yù)測(cè)的可能性最大化。然而,在針對(duì)性對(duì)抗攻擊中,模型保持不變,通過(guò)更新輸入數(shù)據(jù)使出現(xiàn)特定錯(cuò)誤預(yù)測(cè)的概率最大化。因此,監(jiān)督學(xué)習(xí)可以生成一個(gè)高效轉(zhuǎn)錄音頻的模型,而對(duì)抗性攻擊則高效的生成可以欺騙模型的輸入音頻樣本。
但是,我們?nèi)绾斡?jì)算模型輸出某種分類的概率呢?
通過(guò)算法推導(dǎo)出此音頻片段中所說(shuō)的詞語(yǔ)并不容易。難點(diǎn)有如每個(gè)單詞從哪里開(kāi)始和哪里結(jié)束?
在語(yǔ)音識(shí)別中,正確分類的概率是使用連接主義時(shí)空分類(CTC)損失函數(shù)計(jì)算的。設(shè)計(jì) CTC 損失函數(shù)的關(guān)鍵出發(fā)點(diǎn)是界定音頻邊界很困難:與通常由空格分隔的書(shū)面語(yǔ)言不同,音頻數(shù)據(jù)以連續(xù)波形的形式存在。因?yàn)樵~匯波形之間可能存在許多「特征」,所以某個(gè)句子的正確識(shí)別率很難最大化。CTC 通過(guò)計(jì)算所有可能的輸出中「期望輸出」的總概率來(lái)解決這個(gè)問(wèn)題。
盡管這種初始基線攻擊能夠成功的欺騙目標(biāo)模型,但人們也容易發(fā)覺(jué)音頻被改動(dòng)過(guò)。這是因?yàn)?CTC 損耗優(yōu)化器傾向于在已經(jīng)騙過(guò)模型的音頻片段中添加不必要的失真,而不是專注于目標(biāo)模型更難欺騙的部分。
Carlini&Wagner 的自定義損失函數(shù)。π 是已計(jì)算特征,δ 是已學(xué)習(xí)對(duì)抗失真,τ 是最大可接受音量,ci 是一個(gè)用于最小化失真并進(jìn)一步欺騙模型的參數(shù),Li 是第 i 個(gè)輸出令牌的損失。
由于針對(duì)性攻擊的最薄弱環(huán)節(jié)直接決定了攻擊的強(qiáng)力與否,Carlini 和 Wagner 引入了一個(gè)定制的損失函數(shù),該函數(shù)會(huì)懲罰最強(qiáng)攻擊部分的不必要的失真。以基線失真為始,該算法會(huì)迭代地最小化該函數(shù),在保持失真的對(duì)抗性的同時(shí)逐漸降低其音量,直到人聽(tīng)不到為止。最終的結(jié)果是音頻樣本聽(tīng)起來(lái)與原始樣本完全相同,但攻擊者可以使目標(biāo)語(yǔ)音識(shí)別模型產(chǎn)生任意他想要的結(jié)果。
盡管語(yǔ)音攻擊令人擔(dān)憂,但相比其它應(yīng)用類型中的攻擊,語(yǔ)音識(shí)別攻擊可能并不那么危險(xiǎn)。例如,不像自動(dòng)駕駛中的計(jì)算機(jī)視覺(jué)技術(shù),語(yǔ)音識(shí)別很少成為關(guān)鍵應(yīng)用的核心控制點(diǎn)。并且語(yǔ)音激活控件可以有 10 秒左右的時(shí)間冗余,這段時(shí)間完全可以用來(lái)正確理解命令然后再去執(zhí)行。
另外,對(duì)抗性攻擊理論上可以用于確保隱私。比如制造一個(gè)設(shè)備,這個(gè)設(shè)備通過(guò)發(fā)出柔和的背景噪音使監(jiān)控系統(tǒng)系將周圍的對(duì)話誤認(rèn)為完全沉默。即使竊聽(tīng)者設(shè)法記錄您的對(duì)話,但要從 PB 級(jí)的非結(jié)構(gòu)化原始音頻搜索出有用信息,還需要將音頻自動(dòng)轉(zhuǎn)換為書(shū)面文字,這些對(duì)抗性攻擊旨在破壞這一轉(zhuǎn)化過(guò)程。
不過(guò)目前還并沒(méi)有大功告成。Carlini & Wagner 的攻擊在使用揚(yáng)聲器播放時(shí)會(huì)失效,因?yàn)閾P(yáng)聲器會(huì)扭曲攻擊噪音的模式。另外,針對(duì)語(yǔ)音轉(zhuǎn)文本模型的攻擊必須根據(jù)每段音頻進(jìn)行定制,這個(gè)過(guò)程還不能實(shí)時(shí)完成?;仡欉^(guò)去,研究者們只花費(fèi)了幾年的時(shí)間就將 Szegedy 的初始圖像攻擊發(fā)展的如此強(qiáng)大,試想如果針對(duì)語(yǔ)音的對(duì)抗性攻擊的發(fā)展速度也這么快,那么 Carlini 和 Wagner 的研究成果著實(shí)值得關(guān)注。
雷鋒網(wǎng) AI 科技評(píng)論認(rèn)為對(duì)抗性攻擊可能會(huì)利用深度學(xué)習(xí)的算法漏洞進(jìn)行破壞,引發(fā)諸如自動(dòng)駕駛等應(yīng)用的安全問(wèn)題,但如上文所述,針對(duì)音頻的對(duì)抗性攻擊對(duì)于隱私保護(hù)也有積極意義。
via thegradient.pub,雷鋒網(wǎng) AI 科技評(píng)論編譯
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。