丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給亞萌
發(fā)送

0

ICLR-17最佳論文作者Nicolas Papernot現(xiàn)場演講:如何用PATE框架有效保護隱私訓(xùn)練數(shù)據(jù)?(附視頻)

本文作者: 亞萌 2017-04-27 21:06
導(dǎo)語:來自谷歌大腦研究成果,結(jié)合差分隱私、半監(jiān)督生成模型、教師/學(xué)生模型來抵御最為強勁的攻擊者。

雷鋒網(wǎng)按:ICLR 2017 總共有三篇最佳論文,其中有一篇是關(guān)于如何有效保護機器學(xué)習(xí)訓(xùn)練中的隱私數(shù)據(jù),名為「用半監(jiān)督知識遷移解決深度學(xué)習(xí)中訓(xùn)練數(shù)據(jù)隱私問題」(Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data)。論文給出了一種通用性的解決方法,名為「教師模型全體的隱私聚合」(Private Aggregation of Teacher Ensembles/PATE),PATE 發(fā)音類似「法國肉醬」這種食物。該論文第一作者是 Nicolas Papernot。在近日舉辦的 ICLR 2017 大會上,Papernot 也進行了口頭報告。以下是 Papernot 現(xiàn)場演講視頻,另附文字版,由雷鋒網(wǎng)編譯。

我主要講一講,如何在機器學(xué)習(xí)當(dāng)中保護數(shù)據(jù)的隱私性。這篇論文的貢獻者還有:Martín Abadi、úlfar Erlingsson、Kunal Talwar 和 Ian Goodfellow。

為了解決這個問題,我們展示了一種能為訓(xùn)練數(shù)據(jù)提供強健隱私保障的通用性方法:「教師模型全體的隱私聚合」(Private Aggregation of Teacher Ensembles/PATE)。

一些機器學(xué)習(xí)應(yīng)用的訓(xùn)練涉及到敏感數(shù)據(jù)。這里是一個訓(xùn)練一般人臉識別模型的例子,2015 年一群研究員發(fā)現(xiàn),通過機器學(xué)習(xí)模型的預(yù)測結(jié)果,可以反過來重建模型訓(xùn)練時使用的人臉數(shù)據(jù)。2016 年,另一撥研究人員發(fā)現(xiàn),同樣可以根據(jù)模型的預(yù)測結(jié)果,來推理出模型訓(xùn)練數(shù)據(jù)中是否包含了某個具體的訓(xùn)練點(training point),他們將這種攻擊稱之為「會員推理攻擊」(membership inference attacks)。

ICLR-17最佳論文作者Nicolas Papernot現(xiàn)場演講:如何用PATE框架有效保護隱私訓(xùn)練數(shù)據(jù)?(附視頻)

幾種攻擊類型和我們的威脅模型

以下有兩種攻擊類型。

  • 模型查詢(model querying)

攻擊者通過查詢來觀察模型。對于攻擊者來說,模型是一個黑盒,攻擊者可以挑選輸入值,來觀察模型的預(yù)測結(jié)果。

  • 模型檢驗(model inspection)

當(dāng)我們進行防守設(shè)計的時候,我們會針對最強的攻擊手法。有很多證據(jù)表明,機器學(xué)習(xí)模型能夠記住一些訓(xùn)練數(shù)據(jù),其中一個證據(jù)就是來自這篇論文:《理解深度學(xué)習(xí),需要重新思考泛化問題》(Understanding Deep Learning Requires Rethinking Generalization)。所以我們也想防范白盒攻擊者(white-box adversary)通過模型檢驗進行的攻擊。

ICLR-17最佳論文作者Nicolas Papernot現(xiàn)場演講:如何用PATE框架有效保護隱私訓(xùn)練數(shù)據(jù)?(附視頻)

在我們的工作中,威脅模型有以下幾個假定:

  • 攻擊者可以進行潛在的無限多的查詢

  • 攻擊者能夠進入模型內(nèi)部組件

ICLR-17最佳論文作者Nicolas Papernot現(xiàn)場演講:如何用PATE框架有效保護隱私訓(xùn)練數(shù)據(jù)?(附視頻)

在以上假定下,我們設(shè)計保護數(shù)據(jù)隱私的通用性方法?!竿ㄓ眯浴沟囊馑际侵浮釜毩⒂趯W(xué)習(xí)算法或?qū)W習(xí)架構(gòu)」,這是與此前該領(lǐng)域工作最大的一個不同點。我們不僅提供正式的差分隱私保障,也提供一定的直觀隱私(intuitive privacy)保障,關(guān)于這一點,我后續(xù)會給出更多的解釋。

ICLR-17最佳論文作者Nicolas Papernot現(xiàn)場演講:如何用PATE框架有效保護隱私訓(xùn)練數(shù)據(jù)?(附視頻)

我們的方法:PATE

我們給出的解決方法是「教師模型全體的隱私聚合」(Private Aggregation of Teacher Ensembles/PATE),PATE 的發(fā)音類似「法國肉醬」這種食物。

ICLR-17最佳論文作者Nicolas Papernot現(xiàn)場演講:如何用PATE框架有效保護隱私訓(xùn)練數(shù)據(jù)?(附視頻)

  • 教師模型(Teacher Model)

起初,我們將敏感數(shù)據(jù)分割為 N 個互斥的不同數(shù)據(jù)集,然后由這些數(shù)據(jù)集分別獨立訓(xùn)練不同的模型,得到 N 個「教師模型」。當(dāng)我們部署訓(xùn)練好的「教師模型」時,我們記錄每一個「教師模型」的預(yù)測結(jié)果,選取票數(shù)最高的那個,將預(yù)測結(jié)果聚合起來。

ICLR-17最佳論文作者Nicolas Papernot現(xiàn)場演講:如何用PATE框架有效保護隱私訓(xùn)練數(shù)據(jù)?(附視頻)

如果大部分「教師模型」都同意某一個預(yù)測結(jié)果,那么就意味著它不依賴于具體的分散數(shù)據(jù)集,所以隱私成本很小。但是,如果有兩類預(yù)測結(jié)果有相近的票數(shù),那么這種不一致,或許會泄露隱私信息。

因此,我們在中間「統(tǒng)計票數(shù)」和「取最大值」之間,添加了額外的一個步驟:引入拉普拉斯噪聲,把票數(shù)的統(tǒng)計情況打亂,從而保護隱私。

ICLR-17最佳論文作者Nicolas Papernot現(xiàn)場演講:如何用PATE框架有效保護隱私訓(xùn)練數(shù)據(jù)?(附視頻)

  • 學(xué)生模型(Student Model)

你可以把「聚合教師模型」(Aggregated Teacher)看做是一個差分隱私 API,你提交輸入值,它會給你保護隱私的標(biāo)簽。但是,如果我們能訓(xùn)練一個機器學(xué)習(xí)模型,部署到用戶設(shè)備上直接運行模型得出預(yù)測結(jié)果,這樣會更好。所以,我們又訓(xùn)練了一個額外模型:「學(xué)生模型」。「學(xué)生模型」可以獲得未標(biāo)記的公共數(shù)據(jù)池。為了訓(xùn)練「學(xué)生模型」,我們需要「聚合教師模型」以隱私保護的方式,來給公共數(shù)據(jù)進行標(biāo)注,傳遞知識。我們用于部署在設(shè)備上的,就是訓(xùn)練好的「學(xué)生模型」。

ICLR-17最佳論文作者Nicolas Papernot現(xiàn)場演講:如何用PATE框架有效保護隱私訓(xùn)練數(shù)據(jù)?(附視頻)

  • 為什么要訓(xùn)練一個額外的「學(xué)生模型」?

如果你仔細(xì)看一下,就會發(fā)現(xiàn)「聚合教師模型」實際上破壞了我們的威脅模型。每次你在查詢「聚合教師模型」時,都會增加隱私成本,因它每次給出的輸出結(jié)果都會或多或少透露一些隱私信息。然而,當(dāng)「學(xué)生模型」訓(xùn)練好之后,只能對「聚合教師模型」進行固定數(shù)量的查詢,那么隱私成本就會被固定下來了。

另外,我們要防范攻擊者探取模型底層函數(shù)庫?!附處熌P汀故怯呻[私數(shù)據(jù)訓(xùn)練的,「學(xué)生模型」是由公共數(shù)據(jù)訓(xùn)練的,帶有隱私保護的標(biāo)注。所以最壞的情況是,攻擊者通過查驗「學(xué)生模型」的底層函數(shù)庫而獲得其訓(xùn)練數(shù)據(jù),也只能得到帶有隱私保護的標(biāo)注信息,除此以外攻擊者得不到再多的隱私信息了。

ICLR-17最佳論文作者Nicolas Papernot現(xiàn)場演講:如何用PATE框架有效保護隱私訓(xùn)練數(shù)據(jù)?(附視頻)

差分隱私分析

對于相近的數(shù)據(jù)集(d,d'),隨機的算法 M 滿足(ε,δ)差分隱私,那么兩個查詢數(shù)據(jù)庫(d,d')的查詢結(jié)果在概率上接近。寫成公式就是:

ICLR-17最佳論文作者Nicolas Papernot現(xiàn)場演講:如何用PATE框架有效保護隱私訓(xùn)練數(shù)據(jù)?(附視頻)

也就是說,對于任意的查詢結(jié)果集合 S,參數(shù)ε接近 0 時,隱私程度高。所以,ε值決定了噪聲的干擾程度,也決定了隱私程度。另外,我們還有一個參數(shù)δ,代表失敗率(failure rate),簡化了差分隱私分析。

我們應(yīng)用了 Moments Accountant 技巧,來自去年的一篇論文(Abadi et al,2016),可以對「教師模型」設(shè)置一個強固定數(shù)(strong quorum),從而帶來小隱私成本。另外,差分隱私范圍(bound)是依賴于數(shù)據(jù)的。

ICLR-17最佳論文作者Nicolas Papernot現(xiàn)場演講:如何用PATE框架有效保護隱私訓(xùn)練數(shù)據(jù)?(附視頻)

生成式變種:PATE-G

在展示實驗結(jié)果之前,我想展示一下 PATE 的一種生成式變種:PATE-G,你可以把它當(dāng)做是更華麗的一種 PATE 版本。PATE-G 的設(shè)計初衷很簡單:我們希望產(chǎn)生「學(xué)生模型」訓(xùn)練時需要用的標(biāo)簽數(shù)目,數(shù)目越小,則隱私成本越小。

生成對抗網(wǎng)絡(luò)(GANs)的一般架構(gòu)是分為生成器和判別器。我們將原本二元分類的判別器(只判別數(shù)據(jù)是真實的 or 生成的)擴展至一個多類別的分類器,用來區(qū)分:已標(biāo)注的真實樣本,未標(biāo)注真實樣本,以及生成樣本。

ICLR-17最佳論文作者Nicolas Papernot現(xiàn)場演講:如何用PATE框架有效保護隱私訓(xùn)練數(shù)據(jù)?(附視頻)

實驗結(jié)果

  • 實驗設(shè)置

我們使用了四個數(shù)據(jù)庫:MNIST、SVHN、UCI Adult 和 UCI Diabetes。在訓(xùn)練「教師模型」時,對于 MNIST 和 SVHN 兩個圖像數(shù)據(jù)庫,我們使用了卷積架構(gòu);對于兩個 UCI 數(shù)據(jù)庫,我們使用了隨機森林。在訓(xùn)練「學(xué)生模型」時,對于 MNIST 和 SVHN,我們使用了 PATE-G;對于兩個 UCI 數(shù)據(jù)庫,我們使用的是普通的 PATE 架構(gòu)。順便說一句,我們所有的實驗設(shè)置都已經(jīng)在 TensorFlow 模塊上。

ICLR-17最佳論文作者Nicolas Papernot現(xiàn)場演講:如何用PATE框架有效保護隱私訓(xùn)練數(shù)據(jù)?(附視頻)

  • 「聚合教師模型」的準(zhǔn)確率

這幅圖描繪了「聚合教師模型」的準(zhǔn)確率。所以,在訓(xùn)練「學(xué)生模型」之前,我們考慮了每一個標(biāo)簽的隱私。橫軸是每一個標(biāo)簽查詢的ε值,縱軸是預(yù)測結(jié)果的平均準(zhǔn)確率。

ICLR-17最佳論文作者Nicolas Papernot現(xiàn)場演講:如何用PATE框架有效保護隱私訓(xùn)練數(shù)據(jù)?(附視頻)

紫色這條線代表了一個包含 10 個「教師模型」的「聚合教師模型」(n=10)。當(dāng)我們逐漸降低ε的值,意味著我們引入更多的隨機噪聲,加強隱私保障,那么這個「聚合教師模型」的準(zhǔn)確率也很快下降。但是,圖中綠線和紅線的部分,分別是包含 100 個和 250 個「教師模型」的「聚合教師模型」(n=100,n=250),那么在較低ε值時,我們?nèi)匀豢梢员3州^高的準(zhǔn)確率。

  • 「學(xué)生模型」準(zhǔn)確率和隱私之間平衡

橫軸是「學(xué)生模型」的ε值,代表我們方法的所有隱私成本(overall cost)??v軸是進行了隱私保護的「學(xué)生模型」的錯誤率。

ICLR-17最佳論文作者Nicolas Papernot現(xiàn)場演講:如何用PATE框架有效保護隱私訓(xùn)練數(shù)據(jù)?(附視頻)

在紫色(MNIST)和藍色(SVHN)部分,我們大幅度降低了ε值(60 萬到 20 萬以下),意味著大幅加強隱私保障,由此保持甚至提高了準(zhǔn)確率,因為錯誤率都保持在較低水平。對于綠色(Adult)部分,我們把錯誤率降低到了最先進的水平,同時付出了適量的隱私成本。

最后,對于 UCI Diabetes 數(shù)據(jù)庫,我們發(fā)現(xiàn)了一些非常有趣的東西。隱私保護模型(student accuracy)比未加隱私保護的模型(non-private baseline)的準(zhǔn)確率還要高。

總結(jié)

最后,我想強調(diào)三點。第一點,就是這個方法是具有通用性的,這意味著你可以將它應(yīng)用于各種分類器中(包括神經(jīng)網(wǎng)絡(luò));另外,就算你不太懂隱私保護的知識,你可以通過 PATE 框架來保護機器學(xué)習(xí)里的訓(xùn)練數(shù)據(jù)。第二點,差分隱私范圍(bound)不是給定的,對于達到準(zhǔn)確度與隱私之間的良好的平衡,具有重要意義。第三點,我們觀察到,隱私和通用性并不一定是互相矛盾的。

以上就是我的報告,謝謝大家。

更多雷鋒網(wǎng)文章:

ICLR 最佳論文作者張馳原演講全文:理解深度學(xué)習(xí),為何我們需要重新思考泛化問題?| ICLR 2017

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

ICLR-17最佳論文作者Nicolas Papernot現(xiàn)場演講:如何用PATE框架有效保護隱私訓(xùn)練數(shù)據(jù)?(附視頻)

分享:
相關(guān)文章

編輯

關(guān)注人工智能(AI)報道
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說