丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給camel
發(fā)送

0

Ian Goodfellow叒來探討安全問題了,noisy SGD和PATE能滿足傳統(tǒng)計(jì)算機(jī)安全原則嗎?

本文作者: camel 編輯:郭奕欣 2017-09-07 15:40
導(dǎo)語:Ian Goodfellow等人對(duì)傳統(tǒng)安全原則是否適用于機(jī)器學(xué)習(xí)領(lǐng)域做了簡(jiǎn)要分析。

雷鋒網(wǎng) AI科技評(píng)論按:在上世紀(jì)80年代初,互聯(lián)網(wǎng)只用于學(xué)術(shù)研究人員和軍事實(shí)驗(yàn)室的年代,網(wǎng)絡(luò)連接的計(jì)算機(jī)之間大家彼此信任且沒有惡意行為。而現(xiàn)在如果有基于這樣的假設(shè)設(shè)計(jì)出的網(wǎng)絡(luò),那么它必定不可能在網(wǎng)絡(luò)攻擊中幸存。

機(jī)器學(xué)習(xí)的現(xiàn)狀就有點(diǎn)像上世紀(jì)80年代初的那種情形,目前大多基于深度學(xué)習(xí)的模型都還只是研究人員在使用,當(dāng)他們?cè)O(shè)計(jì)這些模型的時(shí)候主要還是在考慮它的學(xué)習(xí)能力,而很少會(huì)考慮到這個(gè)模型是否會(huì)遭到黑客的攻擊。但隨著越來越多的人工智能的研究在業(yè)界得到應(yīng)用,機(jī)器學(xué)習(xí)安全與隱私的問題也逐漸得到越來越多人的關(guān)注。

Ian Goodfellow和Nicolas Papernot兩人可謂是這個(gè)領(lǐng)域的急先鋒,自去年兩人共同創(chuàng)建了Clever Hans博客(cleverhans.io,博客上已經(jīng)有三篇關(guān)于機(jī)器學(xué)習(xí)安全與隱私問題)后,兩人還建立了cleverhans對(duì)抗性機(jī)器學(xué)習(xí)樣本庫,并積極促進(jìn)研究社區(qū)中的學(xué)術(shù)交流,希望與全世界的研究者們共同探索和改善機(jī)器學(xué)習(xí)模型在安全和隱私方面的表現(xiàn)。

具體可參考雷鋒網(wǎng)AI科技評(píng)論往期文章:

Ian Goodfellow和Papernot半年三篇博文,對(duì)機(jī)器學(xué)習(xí)的安全隱私來了個(gè)大起底

雷鋒網(wǎng)注意到,前不久Ian Goodfellow、Nicolas Papernot等人在arXiv上發(fā)表了一篇非?;A(chǔ)性的特邀報(bào)告文章。在這篇文章中,他們探討了一個(gè)問題,即:傳統(tǒng)的隱私安全原則,在機(jī)器學(xué)習(xí)環(huán)境下是否還適用?Ian Goodfellow等人就分類任務(wù)的監(jiān)督學(xué)習(xí)問題,討論了最近出現(xiàn)的兩種具備隱私保護(hù)的機(jī)器學(xué)習(xí)模型(noisy SGD和PATE),考察了它們是否能滿足傳統(tǒng)的計(jì)算機(jī)安全原則(Saltzer 和 Schroeder)。他們認(rèn)為傳統(tǒng)的計(jì)算機(jī)安全原則在機(jī)器學(xué)習(xí)環(huán)境下仍然值得借鑒,依照原則,上述的兩個(gè)模型還有待改進(jìn)。

一、攻擊者的目的是什么?

機(jī)器學(xué)習(xí)的模型千千萬,Ian Goodfellow等人作為示例選擇最簡(jiǎn)單和普遍的分類任務(wù)的監(jiān)督學(xué)習(xí)問題來做討論。

所謂分類任務(wù),其實(shí)就是一個(gè)函數(shù)f將樣本指向一個(gè)類,例如將一張圖片指向一個(gè)數(shù)字。(更廣義地來說,每個(gè)函數(shù)還應(yīng)包含一個(gè)概率值,為了簡(jiǎn)單這里就不考慮這個(gè)了)而所謂學(xué)習(xí)就是通過訓(xùn)練得到一個(gè)函數(shù)g(也就是訓(xùn)練出的模型)在某種程度上接近f。“監(jiān)督”的意思則是學(xué)習(xí)的輸入和輸出都是已知的。

在這個(gè)模型中,一面是輸入輸出的訓(xùn)練數(shù)據(jù)集,一面是由數(shù)據(jù)集訓(xùn)練出的模型g。所以如果有惡意的攻擊,攻擊者可能會(huì)有兩個(gè)目的:

  • (1)(完整地或部分地)提取出訓(xùn)練模型的參數(shù);

  • (2)測(cè)試一個(gè)輸入輸出對(duì)(或僅僅是輸入或輸出)是不是訓(xùn)練數(shù)據(jù)集中的一部分,從而提取訓(xùn)練數(shù)據(jù)集的信息。

就威脅程度的而言,也有兩種可能:

  • (1)黑箱威脅:攻擊者只能拿著模型g應(yīng)用到他們選擇的一些新的輸入上,可能還會(huì)有一些次數(shù)或別的限制;

  • (2)白箱威脅:攻擊者可以查看模型g的內(nèi)部。

二、兩種隱私保護(hù)的機(jī)器學(xué)習(xí)模型

1、噪聲隨機(jī)梯度下降(noisy stochastic gradient descent,noisy SGD)

機(jī)器學(xué)習(xí)其實(shí)就是訓(xùn)練一個(gè)參數(shù)函數(shù)g(θ, x),其中x是樣本(訓(xùn)練數(shù)據(jù)或者預(yù)測(cè)輸入數(shù)據(jù)),參數(shù)θ則可以是神經(jīng)網(wǎng)絡(luò)的權(quán)重等。當(dāng)輸入一個(gè)樣本x時(shí),當(dāng)給定θ和g,則由g和f之間的差別得到損失函數(shù)L(g, θ)。訓(xùn)練模型g的過程,其實(shí)就是通過尋找合適的θ值,使損失函數(shù)L(g, θ)最?。ɑ蛘咴谡`差容許范圍內(nèi))。一般來說g和L都是θ的可微分函數(shù),因此訓(xùn)練的過程就會(huì)依賴函數(shù)的梯度下降。通過隨機(jī)梯度下降(SGD),我們就可以用樣本x重復(fù)地計(jì)算g和L,得到誤差容許范圍內(nèi)的損失函數(shù)。

一方面,訓(xùn)練數(shù)據(jù)只能通過梯度計(jì)算來影響θ值;另一方面,θ最終的靈敏度通常是很難分析的。這就允許我們通過在梯度計(jì)算的過程中添加仔細(xì)校準(zhǔn)過的噪聲來實(shí)現(xiàn)隱私的保護(hù)。這個(gè)想法在M. Abadi等人去年的一篇文章《Deep learning with differential privacy》中有非常詳細(xì)的介紹。

2、教師系綜的私有聚合(private aggregation of teacher ensembles,PATE)

另外一種隱私保護(hù)的模型非常有意思。設(shè)想如果攻擊者千辛萬苦攻破了一個(gè)機(jī)器學(xué)習(xí)模型,卻發(fā)現(xiàn)他調(diào)整模型的內(nèi)部參數(shù)卻對(duì)模型沒有任何影響,是什么樣的心情。機(jī)器學(xué)習(xí)系綜模型就是這種讓攻擊者絕望的模型。

PATE模型的思想其實(shí)很簡(jiǎn)單,首先它通過訓(xùn)練數(shù)據(jù)集中相互沒有交集的子數(shù)據(jù)訓(xùn)練大量“教師”模型,構(gòu)成一個(gè)“教師系綜”;隨后再通過教師系綜的輸出去訓(xùn)練“學(xué)生”模型,“學(xué)生”的訓(xùn)練僅依賴“教師”的預(yù)測(cè)結(jié)果,而不涉及它們的內(nèi)部參數(shù)。

這種模型,一方面,當(dāng)教師系綜的某個(gè)“教師”出現(xiàn)問題時(shí)并不會(huì)對(duì)“學(xué)生”有很大的影響;另一方面,攻擊者不可能通過攻破“學(xué)生”模型來得到“教師”的內(nèi)部結(jié)構(gòu);不過結(jié)合兩方面,即使得到一個(gè)“教師”的內(nèi)部參數(shù),也不會(huì)對(duì)模型本身有太大的影響。此外,一旦“學(xué)生”訓(xùn)練完成后,事實(shí)上我們可以撤掉“教師系綜”(同時(shí)也包括它所攜帶的隱私)。

三、重申計(jì)算機(jī)安全的十大原則

Ian等人認(rèn)為傳統(tǒng)的計(jì)算機(jī)安全中的研究在機(jī)器學(xué)習(xí)環(huán)境中仍然值得借鑒,他們?cè)诖讼胪ㄟ^Saltzer和Schroeder兩人在75年提出的計(jì)算機(jī)安全十大原則來評(píng)價(jià)上述兩個(gè)機(jī)器學(xué)習(xí)的隱私保護(hù)模型。

不得不說,Saltzer和Schroeder當(dāng)年提出的大部分保護(hù)機(jī)制和機(jī)器學(xué)習(xí)中的都不一樣,因?yàn)楫?dāng)時(shí)并不涉及數(shù)據(jù)遷移。不過他們當(dāng)時(shí)描述過通過“數(shù)據(jù)加密”的保護(hù)機(jī)制;通過數(shù)據(jù)來訓(xùn)練模型在某種程度上其實(shí)也類似于“數(shù)據(jù)加密”。所以他們當(dāng)年提出的十大原則也同樣適用于機(jī)器學(xué)習(xí)環(huán)境中。那么上述兩種隱私保護(hù)模型(noisy SGD和PATE)是否符合這十大原則呢?一起和雷鋒網(wǎng)AI科技評(píng)論來逐一看看。

1、機(jī)制的經(jīng)濟(jì)性

這一原則強(qiáng)調(diào),保護(hù)機(jī)制的設(shè)計(jì)應(yīng)盡可能得簡(jiǎn)單??雌饋?,noisy SGD和PATE(以及它的變種)在這方面都不會(huì)表現(xiàn)很好,原因各不同相同:

noisy SGD雖然是通過簡(jiǎn)單的算法思想(添加噪聲)極為容易地實(shí)現(xiàn)的,但這些想法會(huì)直接影響隨機(jī)梯度下降(SGD)本身,而SGD是許多學(xué)習(xí)算法的核心。所以這無異就相當(dāng)于給模型做了一個(gè)心臟手術(shù),這對(duì)學(xué)習(xí)模型的影響是很大的,可能會(huì)造成其他潛在的威脅。此外,當(dāng)學(xué)習(xí)算法進(jìn)行優(yōu)化和擴(kuò)展的時(shí)候,你還需要反過來考察是否需要新的noisy SGD。

PATE模型相比noisySGD模型,會(huì)涉及更多的設(shè)計(jì)細(xì)節(jié),尤其是它的變種PATE-G集成了基于GANs的復(fù)雜技術(shù)。而另一方面,這些復(fù)雜的設(shè)計(jì)細(xì)節(jié)至關(guān)重要,卻又與老師”模型的訓(xùn)練完全分離,同時(shí)也與“學(xué)生”模型的內(nèi)部結(jié)構(gòu)無關(guān)。

所以考慮到機(jī)制的經(jīng)濟(jì)性,noisy SGD和PATE并不理想,還有待尋找更簡(jiǎn)單和更小的機(jī)制。

2、故障安全默認(rèn)

這個(gè)原則說明模型的默認(rèn)配置應(yīng)是缺省訪問,特別是,當(dāng)發(fā)生錯(cuò)誤時(shí)將導(dǎo)致拒絕訪問。這個(gè)原則似乎很難應(yīng)用到noisy SGD和PATE上,因?yàn)樗鼈兺ǔ?huì)在任何情況下向任何提出請(qǐng)求的人提供相同的訪問權(quán)限。

近來也有許多這方面的研究實(shí)現(xiàn)了被稱為(ε,δ)的差異隱私保障,其中ε為隱私值,δ為故障概率。不過初步來看,這樣的保障一旦失敗就會(huì)導(dǎo)致隱私喪失,而不是失去精確性。在這個(gè)意義上,這種保障并不是故障安全默認(rèn)。所以在這方面似乎還需要更進(jìn)一步的研究。

3、完全仲裁

這個(gè)原則意味著每一次訪問敏感數(shù)據(jù)都應(yīng)該通過保護(hù)機(jī)制。舉個(gè)例子來說,在線銀行會(huì)要求15分鐘沒有操作后用戶必須重新登錄。這個(gè)原則需要站在整個(gè)系統(tǒng)的角度來考慮,所以并不適用于對(duì)noisy SGD和PATE的分析。

4、開放式設(shè)計(jì)

這個(gè)原則要求保護(hù)機(jī)制的設(shè)計(jì)不應(yīng)當(dāng)是基于某個(gè)秘密,而應(yīng)該是公開的,這樣攻擊者就不可能通過對(duì)某個(gè)秘密的獲取來攻破系統(tǒng)。noisy SGD和PATE兩者在這方面都完全滿足。

5、特權(quán)分離

這個(gè)原則要求訪問某個(gè)關(guān)鍵資源,必須使用多個(gè)獨(dú)立的“鑰匙”。和“故障安全默認(rèn)”一樣,這個(gè)原則也很難應(yīng)用到noisy SGD和PATE上,它可能更適用于單獨(dú)的外部保護(hù)層次。

6、最小特權(quán)

這個(gè)原則要求每個(gè)程序/系統(tǒng)的每個(gè)用戶在完成操作的過程中只需要最少的權(quán)限。這個(gè)原則在noisy SGD和PATE中真的是再適合不過了。例如在PATE中,這就意味著每個(gè)“教師”模型即使程序出現(xiàn)錯(cuò)誤也不可能訪問到其他“教師”的訓(xùn)練數(shù)據(jù)。

這個(gè)原則能最大限度地限制事故或錯(cuò)誤可能造成的損害。在這方面還沒有太多的研究,不過似乎可以實(shí)現(xiàn)的。

7、最少公共機(jī)制

該原則要求在多用戶系統(tǒng)中,允許多個(gè)用戶共享的資源應(yīng)盡可能得少。在noisy SGD和PATE中,對(duì)所有訓(xùn)練數(shù)據(jù)以及學(xué)習(xí)機(jī)制的所有訪問,隱私參數(shù)都是相同的。但或許可以通過加權(quán)的方法來為不同的訓(xùn)練數(shù)據(jù)的提供隱私保護(hù),從而保證不同用戶的隱私需求。

8、心理可接受

這個(gè)原則要求用戶接口應(yīng)該是精心設(shè)計(jì)的,并且非常直觀,所有與安全相關(guān)的設(shè)置都應(yīng)按普通用戶的期望進(jìn)行配置。程序的行為如果與用戶期望之間出現(xiàn)差異,可能就會(huì)帶來安全問題。

就兩個(gè)模型來說,noisy SGD的配置需要用戶了解足夠的數(shù)學(xué)、差別隱私以及機(jī)器學(xué)習(xí)的知識(shí),這可能是大多數(shù)用戶所欠缺的。而PATE模型相對(duì)來說就比較清晰直觀了,它不需要太多背景知識(shí),你想還有什么比“如果100個(gè)獨(dú)立訓(xùn)練的機(jī)器學(xué)習(xí)模型說一張圖片是貓,預(yù)測(cè)結(jié)果也應(yīng)當(dāng)是貓”這樣的模型更直觀呢。

9、工作因素

這一原則要求設(shè)計(jì)安全方案時(shí)應(yīng)根據(jù)攻擊者的資源來進(jìn)行,例如保護(hù)軍事機(jī)密的系統(tǒng),其安全設(shè)計(jì)和保護(hù)學(xué)校學(xué)生成績(jī)的系統(tǒng)的安全設(shè)計(jì)是不一樣的。noisy SGD和PATE的隱私保護(hù)受益于在交互時(shí)間,攻擊者不受限于任何特定數(shù)量的查詢。

10、記錄危害

這個(gè)原則說明有時(shí)記錄入侵細(xì)節(jié)比采用更復(fù)雜的措施來預(yù)防更為理想。如上面所述,(ε,δ)-差別隱私包含了故障的概率,但是沒有任何信息可以用來記錄故障的原因。所以機(jī)器學(xué)習(xí)的隱私保護(hù)在記錄危害方面的問題是非常嚴(yán)重的,因?yàn)樗赡苁抢碚摰娜毕?,而不是具體某個(gè)算法的問題。

四、許多問題有待研究

當(dāng)然,由于這只是一篇特邀報(bào)告的文章,內(nèi)容只是用來做示例,所以有很多問題和方面,Ian他們選擇了“暫不考慮”。例如,攻擊者可能會(huì)通過學(xué)習(xí)過程中修改某些訓(xùn)練數(shù)據(jù)來影響模型(給模型下毒),在其他機(jī)器學(xué)習(xí)任務(wù)中的隱私保護(hù)問題、交互學(xué)習(xí)中的隱私保護(hù)問題以及如何從整個(gè)系統(tǒng)角度(軟、硬件)來考慮安全問題等,他們也只是淺嘗輒止,并沒有就它們展開討論。事實(shí)上,這些問題是非常值得探討的,它們或許需要更多的人共同努力才能完成。所以Ian Goodfellow等人的這篇文章或許只是用來拋磚引玉的吧,研究人員或許能從這篇文章中獲得更多靈感,雷鋒網(wǎng)AI科技評(píng)論也將持續(xù)關(guān)注機(jī)器學(xué)習(xí)隱私問題的動(dòng)向和內(nèi)容。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

Ian Goodfellow叒來探討安全問題了,noisy SGD和PATE能滿足傳統(tǒng)計(jì)算機(jī)安全原則嗎?

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說