0
雷鋒網(wǎng) AI 科技評(píng)論按:Nicolas Papernot 在 2017、2018 連續(xù)兩年的 ICLR 上都發(fā)表了關(guān)于差分隱私方法 PATE 的論文。如今大家都意識(shí)到了隱私問題是模型設(shè)計(jì)中有必要考慮的因素,設(shè)計(jì)模型時(shí)也愿意考慮 PATE 這樣的方法。不過在 cleverhans 博客近期的一篇博客中,Nicolas Papernot、Ian Goodfellow 兩人揭示了一項(xiàng)意想不到的發(fā)現(xiàn):對(duì)隱私問題的改善其實(shí)可以帶來表現(xiàn)更好的機(jī)器學(xué)習(xí)模型,兩者并不沖突,而是盟友。
雷鋒網(wǎng) AI 科技評(píng)論把這篇博客內(nèi)容編譯如下。
在機(jī)器學(xué)習(xí)的許多應(yīng)用中(例如醫(yī)療診斷),我們希望機(jī)器學(xué)習(xí)算法不要把訓(xùn)練數(shù)據(jù)集中的敏感信息記憶下來,比如患者個(gè)人的特殊醫(yī)療病史。差分隱私是衡量算法提供的隱私保證的框架。通過差分隱私的方法,我們可以設(shè)計(jì)能夠在隱私數(shù)據(jù)上負(fù)責(zé)任地訓(xùn)練模型的機(jī)器學(xué)習(xí)算法。機(jī)器學(xué)習(xí)上差分隱私的工作(包括 MartínAbadi,úlfarErlingsson,Ilya Mironov,Ananth Raghunathan,Shuang Song和Kunal Talwar)使機(jī)器學(xué)習(xí)研究人員能夠更方便的為隱私研究做出貢獻(xiàn)——即使他們對(duì)差分隱私中的數(shù)學(xué)原理不那么精通。在這篇博文中,我們會(huì)告訴你如何去做。
重點(diǎn)是一個(gè)稱為 Private Aggregation of Teacher Ensemble(PATE)的算法集。除了它的名字發(fā)音像「法國(guó)肉醬」之外,PATE 框架的一個(gè)關(guān)鍵是,任何知道如何訓(xùn)練有監(jiān)督機(jī)器學(xué)習(xí)模型(例如神經(jīng)網(wǎng)絡(luò))的人現(xiàn)在都可以為機(jī)器學(xué)習(xí)的差分隱私研究做出貢獻(xiàn)。PATE 框架通過仔細(xì)協(xié)調(diào)幾種不同機(jī)器學(xué)習(xí)模型的行為來實(shí)現(xiàn)隱私學(xué)習(xí)。只要您遵循 PATE 框架指定的程序,最終得到的總模型將具有可衡量的隱私保證。其中每個(gè)單獨(dú)的機(jī)器學(xué)習(xí)模型都使用普通的監(jiān)督式學(xué)習(xí)方式訓(xùn)練,我們的許多讀者可能已經(jīng)從 ImageNet 的分類任務(wù)或許多其他更傳統(tǒng)的機(jī)器學(xué)習(xí)任務(wù)中對(duì)監(jiān)督學(xué)習(xí)有過了解。
如果有人可以為 PATE 使用的單個(gè)模型設(shè)計(jì)更好的架構(gòu)或更好的訓(xùn)練算法,那么他們也可以改進(jìn)監(jiān)督學(xué)習(xí)的過程本身(即非隱私分類)。事實(shí)上,差分隱私可以被認(rèn)為是一個(gè)正規(guī)化,能夠解決從業(yè)者經(jīng)常遇到的一些問題——即使在不要求隱私保證的時(shí)候也是如此。這包括過擬合問題。在這篇文章中,我們闡述了隱私和學(xué)習(xí)之間愉快的協(xié)同作用。特別是,我們介紹了 PATE 最近的一個(gè)擴(kuò)展,它改進(jìn)了如何協(xié)調(diào)不同的機(jī)器學(xué)習(xí)模型,以同時(shí)提高由 PATE 框架產(chǎn)生的模型的準(zhǔn)確性和隱私性。這表明了差分隱私目標(biāo)與對(duì)學(xué)習(xí)模型的追求是如何一致的。
機(jī)器學(xué)習(xí)算法是對(duì)于大量數(shù)據(jù)進(jìn)行研究并更新模型參數(shù)來編碼數(shù)據(jù)中的關(guān)系。理想情況下,我們希望這些機(jī)器學(xué)習(xí)模型的參數(shù)能夠編碼廣泛有效的規(guī)律(「吸煙患者更可能患有心臟疾病」),而不是關(guān)于特定訓(xùn)練示例的事實(shí)信息(「Jane Smith 患有心臟病」)。不幸的是,機(jī)器學(xué)習(xí)算法默認(rèn)不忽略這些細(xì)節(jié)。如果我們想用機(jī)器學(xué)習(xí)來解決一個(gè)重要的任務(wù),比如制作一個(gè)癌癥診斷模型,那么當(dāng)我們發(fā)布這個(gè)機(jī)器學(xué)習(xí)模型時(shí)(例如,為全世界的醫(yī)生制作一個(gè)開源癌癥診斷模型),我們也可能會(huì)無意中透露有關(guān)訓(xùn)練集的信息。惡意攻擊者可能能夠檢查已發(fā)布的模型并獲得 Jane Smith 的隱私信息。這就是為什么需要差分隱私算法。
科學(xué)家們提出了許多方法來在分析數(shù)據(jù)時(shí)提供隱私保護(hù)。例如,在分析數(shù)據(jù)之前匿名化數(shù)據(jù)非常流行,通過刪除隱私細(xì)節(jié)或用隨機(jī)數(shù)值替換數(shù)據(jù)。常見的匿名細(xì)節(jié)包括電話號(hào)碼和郵政編碼。然而,匿名數(shù)據(jù)并不總是足夠的,它提供的隱私保護(hù)強(qiáng)度會(huì)隨著攻擊者獲取到的數(shù)據(jù)集中的人信息的數(shù)量增加而迅速降低。這里有一個(gè)很著名的例子,參與了 Netflix Prize 比賽的研究者雖然會(huì)拿到匿名的電影評(píng)價(jià)數(shù)據(jù)集,但是如果其中的人同時(shí)也在網(wǎng)絡(luò)電影數(shù)據(jù)庫(kù)(IMDb)中公開分享了他們的電影評(píng)級(jí),研究人員就能夠重新找回一部分人的身份。比如如果 Jane Smith 在 Netflix Prize 數(shù)據(jù)集中對(duì)電影 A、B 和 C 的評(píng)價(jià)和在公開在 IMDb 上的評(píng)價(jià)是一樣的,那么研究人員可以將兩個(gè)數(shù)據(jù)集之間來自 Jane 的數(shù)據(jù)都鏈接起來。這將使他們有能力恢復(fù)在 Netflix Prize 中但不包括在 IMDb 中的電影評(píng)級(jí)。這個(gè)例子表明了定義和保證隱私是多么的困難,因?yàn)楹茈y估計(jì)攻擊者對(duì)于一個(gè)人的有用知識(shí)范圍。
差分隱私是由 Cynthia Dwork,F(xiàn)rank McSherry,Kobbi Nissim和Adam Smith 發(fā)明的一種評(píng)估框架,用于評(píng)估保護(hù)隱私機(jī)制所提供的隱私保障,它解決了如「k-匿名」(k-anonymity)等之前方法的局限性。基本思想是設(shè)計(jì)一個(gè)機(jī)制讓部分行為隨機(jī)化,從而保證隱私。在我們的例子中,所考慮的機(jī)制始終是一種學(xué)習(xí)算法,但差分隱私框架可以用于研究任何算法。
將隨機(jī)性引入學(xué)習(xí)算法使得研究人員在直觀上很難判斷由學(xué)習(xí)參數(shù)定義的模型的哪些行為方面來自于隨機(jī)性,哪些來自于訓(xùn)練數(shù)據(jù)。如果沒有隨機(jī)性,我們可以提出如下問題:「當(dāng)我們?cè)谶@個(gè)特定數(shù)據(jù)集上訓(xùn)練時(shí),學(xué)習(xí)算法選擇了什么參數(shù)?」當(dāng)學(xué)習(xí)算法中有隨機(jī)性的時(shí)候,我們就會(huì)問這樣的問題:「當(dāng)我們?cè)谶@個(gè)特定的數(shù)據(jù)集上進(jìn)行訓(xùn)練時(shí),學(xué)習(xí)算法在這組可能的參數(shù)中選擇了一組參數(shù)的概率有多大?」
我們使用的這個(gè)差分隱私的版本的特點(diǎn)是,如果我們更改訓(xùn)練集中的單個(gè)訓(xùn)練樣例,學(xué)習(xí)任何特定參數(shù)集的概率要保持大致相同。更改訓(xùn)練樣例可能意味著添加或刪除訓(xùn)練樣例,或更改一個(gè)訓(xùn)練樣例中的值。這種設(shè)計(jì)背后的本質(zhì)想法是,如果單個(gè)患者(Jane Smith)不影響學(xué)習(xí)的成果,那么該患者的病歷就不會(huì)被記住,并且尊重她的隱私。在這篇文章的其余部分,我們通常把這個(gè)概率稱為隱私預(yù)算(privacy budget)。較小的隱私預(yù)算就對(duì)應(yīng)了更強(qiáng)的隱私保證。
在這副示意圖中,當(dāng)攻擊者不能區(qū)分基于三個(gè)用戶中的兩個(gè)用戶數(shù)據(jù)采用隨機(jī)算法產(chǎn)生的結(jié)果,和相同算法根據(jù)全部三個(gè)用戶產(chǎn)生的結(jié)果時(shí),我們就實(shí)現(xiàn)了差分隱私。
我們的 PATE 方法為機(jī)器學(xué)習(xí)提供差分隱私的基本思路是,如果兩個(gè)不同的分類器在兩個(gè)沒有共同的訓(xùn)練樣例的數(shù)據(jù)集上訓(xùn)練,二者對(duì)一個(gè)新的輸入分類結(jié)果達(dá)成一致,于是所得結(jié)論不會(huì)揭示任何有關(guān)單個(gè)訓(xùn)練樣例的信息。這個(gè)結(jié)論可能是在沒有某一個(gè)特定的訓(xùn)練樣例的情況下進(jìn)行的,因?yàn)橛眠@個(gè)例子訓(xùn)練的模型和沒有這個(gè)例子訓(xùn)練的模型都得出了相同的結(jié)論。
那么假設(shè)我們有兩個(gè)模型在不同的數(shù)據(jù)上進(jìn)行訓(xùn)練。當(dāng)他們就一個(gè)輸入達(dá)成一致時(shí),似乎我們可以發(fā)布他們的結(jié)果;但如果不幸地,當(dāng)他們得出沒有一樣的結(jié)果時(shí),接下來要怎么做就不那么肯定了。我們不能單獨(dú)發(fā)布每個(gè)模型的分類輸出,因?yàn)槊總€(gè)模型預(yù)測(cè)的類可能會(huì)泄漏其訓(xùn)練數(shù)據(jù)中包含的一些私人信息。例如,假設(shè) Jane Smith 屬于兩個(gè)模型中的一個(gè)模型的訓(xùn)練數(shù)據(jù)。如果該模型預(yù)測(cè),與 Jane 的記錄非常相似的患者患有癌癥,而另一個(gè)模型(即沒有 Jane Smith 訓(xùn)練數(shù)據(jù))的預(yù)測(cè)相反,則可能暴露了 Jane Smith 的隱私信息。這個(gè)簡(jiǎn)單的例子說明了為什么為算法添加隨機(jī)性是確保提供有效的隱私保證的必備要求。
現(xiàn)在讓我們逐步了解 PATE 框架如何以這個(gè)發(fā)現(xiàn)為基礎(chǔ),可靠地從隱私數(shù)據(jù)中學(xué)習(xí)的。在 PATE 中,我們首先將隱私數(shù)據(jù)集劃分為數(shù)據(jù)子集。這些子集是不同的分區(qū),因此任何分區(qū)所包含的數(shù)據(jù)之間不會(huì)有重疊。如果 Jane Smith 的記錄位于我們的私人數(shù)據(jù)集中,那么它只包含在其中一個(gè)分區(qū)中。我們?cè)诿總€(gè)分區(qū)上訓(xùn)練一個(gè)稱為「teacher」的機(jī)器學(xué)習(xí)模型。如何訓(xùn)練這個(gè)模型沒有任何限制。這實(shí)際上是 PATE 的主要優(yōu)點(diǎn)之一:構(gòu)建「teacher」模型的學(xué)習(xí)算法是不可知的。所有的「teacher」模型都解決了相同的機(jī)器學(xué)習(xí)任務(wù),但他們的訓(xùn)練過程都是獨(dú)立進(jìn)行的。也就是說,只有一個(gè)「teacher」在訓(xùn)練期間分析了 Jane Smith 的記錄。這里是這個(gè)框架的一部分的例子。
我們現(xiàn)在有一套獨(dú)立訓(xùn)練的「teacher」模型集合,但沒有任何隱私保證。我們?nèi)绾问褂眠@個(gè)集合進(jìn)行尊重隱私的預(yù)測(cè)呢?在 PATE 中,我們?cè)黾恿嗽胍?,同時(shí)將每個(gè)「teacher」單獨(dú)進(jìn)行的預(yù)測(cè)聚合起來,以形成一個(gè)統(tǒng)一的預(yù)測(cè)。我們計(jì)算產(chǎn)生每個(gè)預(yù)測(cè)類的「teacher」模型數(shù)量(即每個(gè)類的投票數(shù)),然后通過添加從拉普拉斯或高斯分布采樣的隨機(jī)噪聲來擾亂計(jì)數(shù)。熟悉差分隱私文獻(xiàn)的讀者知道噪聲最大化機(jī)制。當(dāng)兩個(gè)輸出類別的投票數(shù)相同時(shí),這種噪音將確保擁有最多投票數(shù)的類將是隨機(jī)選擇的這兩個(gè)類中的一個(gè)。另一方面,如果大多數(shù)「teacher」模型產(chǎn)生了同一個(gè)分類結(jié)果,增加噪音并不會(huì)改變這個(gè)類得到最多投票數(shù)的事實(shí)。這種微妙的協(xié)調(diào)為噪聲聚合機(jī)制所做的預(yù)測(cè)提供了正確性和隱私保證——只要「teacher」之間的共識(shí)度足夠高。下圖描述了聚合機(jī)制是「teacher」之間達(dá)成共識(shí)的一個(gè)設(shè)置:將隨機(jī)噪聲添加到投票計(jì)數(shù)并不會(huì)改變候選分類的標(biāo)簽。
為了清楚起見,我們用二元醫(yī)學(xué)診斷任務(wù)說明了聚合機(jī)制,但其機(jī)制可以延伸到許多類別?,F(xiàn)在,讓我們分析這個(gè)機(jī)制的結(jié)果——如果 Jane Smith 患有癌癥,從紅色模型(基于唯一包含 Jane Smith 的數(shù)據(jù)分區(qū)進(jìn)行訓(xùn)練的「teacher」模型)可以知道,與 Jane 有相似的記錄是判斷病人是否患有癌癥的特征,并因此改變了其對(duì)測(cè)試輸入(與 Jane 相似)患有癌癥的預(yù)測(cè)。現(xiàn)在有兩個(gè)「teacher」預(yù)測(cè)的分類是「癌癥」(2 票投給「癌癥」),而另外兩個(gè)「teacher」預(yù)測(cè)的分類為「健康」(2 票投給「健康」)。在這種情況下,加在兩個(gè)投票計(jì)數(shù)上的隨機(jī)噪音可以防止聚合的結(jié)果反映任何「teacher」的投票以保護(hù)隱私:噪聲聚合的結(jié)果同樣可能是「健康」或「癌癥」。
在這一點(diǎn)上,PATE 提供了差分隱私的 API:通過噪聲聚合機(jī)制預(yù)測(cè)的標(biāo)簽都有嚴(yán)格的差分隱私保證,從而限制隱私預(yù)算用于標(biāo)記該輸入。在我們的示例中,我們可以限制預(yù)測(cè)標(biāo)簽受訓(xùn)練「teacher」的隱私記錄影響的概率,包括 Jane Smith 的例子。我們采用 Moments Accountant 和 Renyi Differential Privacy 的兩種技術(shù)中的一種來計(jì)算限制范圍。通過使用每個(gè)查詢的投票直方圖,我們?cè)u(píng)估聚合結(jié)果的概率因注入噪聲而改變。然后我們將這些信息匯總到所有查詢中。在實(shí)踐中,隱私預(yù)算主要取決于「teacher」之間的共識(shí)以及增加了多少噪音?!竧eacher」之間意見一致性越高,表現(xiàn)為產(chǎn)生同一類別結(jié)果的票數(shù)越多,往往趨向于更小的隱私預(yù)算。某些情況下,在計(jì)算「teacher」對(duì)于分類結(jié)果的投票數(shù)之前增加大量的噪音也會(huì)產(chǎn)生較小的隱私預(yù)算?;叵胍幌拢^小的隱私預(yù)算對(duì)應(yīng)著更強(qiáng)的隱私保證。
但是,框架在有一點(diǎn)上面臨兩個(gè)限制。首先,由聚合機(jī)制得到的每個(gè)預(yù)測(cè)都會(huì)增加總隱私預(yù)算。這意味著,當(dāng)要預(yù)測(cè)許多標(biāo)簽時(shí),最終總的隱私預(yù)算會(huì)變得很大——在這一點(diǎn)上,所提供的隱私保證變得毫無意義。因此,API 必須對(duì)所有用戶限制查詢的最大數(shù)量,并在達(dá)到上限時(shí)獲取一組新的數(shù)據(jù)來訓(xùn)練新的「teacher」模型集合。其次,我們不能公開發(fā)布「teacher」模型的集合。否則,攻擊者可以檢查已發(fā)布「teacher」的內(nèi)部參數(shù),以了解訓(xùn)練模型的隱私數(shù)據(jù)。出于這兩個(gè)原因,PATE 中有一個(gè)額外的步驟:創(chuàng)建一個(gè)「student」模型。
「student」模型是通過一種保護(hù)隱私的方式將「teacher」模型集合獲得的知識(shí)轉(zhuǎn)化進(jìn)行訓(xùn)練的。當(dāng)然,噪聲聚合機(jī)制是其重要的工具?!竤tudent」從一組未標(biāo)記的公共數(shù)據(jù)中選擇輸入,并將這些輸入提交給「teacher」集合來標(biāo)記它們。噪聲聚合機(jī)制會(huì)給出隱私標(biāo)簽,「student」會(huì)用這些標(biāo)簽來訓(xùn)練模型。在我們的工作中,我們嘗試了兩種變體:PATE 只在已標(biāo)記的輸入上(以監(jiān)督的方式)訓(xùn)練學(xué)生,而 PATE-用已標(biāo)記和未標(biāo)記的輸入(以半監(jiān)督方式使用生成式對(duì)抗網(wǎng)絡(luò)或虛擬對(duì)抗訓(xùn)練)。
「student」模型是 PATE 的最終產(chǎn)品,由它來響應(yīng)最終用戶的任何查詢預(yù)測(cè)。在這一點(diǎn)上,隱私數(shù)據(jù)和「teacher」模型可以安全地被丟棄:「student」是用于推斷的唯一模型。現(xiàn)在來看看上述歸納的缺點(diǎn)現(xiàn)在如何解決。首先,一旦「student」訓(xùn)練完成,整個(gè)隱私預(yù)算就被定為一個(gè)固定值。其次,在最壞的情況下,能夠訪問「student」內(nèi)部參數(shù)的攻擊者只能恢復(fù)訓(xùn)練「student」隱私標(biāo)簽。這種保證源于噪聲聚合機(jī)制。
您可能已經(jīng)注意到,隱私保證和聚合機(jī)制預(yù)測(cè)的標(biāo)簽的正確性都源于「teacher」模型之間的高度一致性。事實(shí)上,當(dāng)大多數(shù)「teacher」對(duì)預(yù)測(cè)達(dá)成一致時(shí),增加噪音不太可能會(huì)改變得到最多「teacher」投票的分類結(jié)果。這為聚合機(jī)制提供了非常強(qiáng)大的隱私保證。同樣地,許多模型得出一致的分類結(jié)果表示對(duì)該預(yù)測(cè)的正確性充滿信心,因?yàn)檫@些「teacher」模型是獨(dú)立于不同的數(shù)據(jù)分區(qū)進(jìn)行訓(xùn)練的。這直觀地說明了為什么 PATE 能夠利用隱私和學(xué)習(xí)之間的一些良好的協(xié)同作用。
這可能令人驚訝。事實(shí)上,差分隱私作為一種屬性是很常見的,它是一種可有可無的屬性,但它與性能之間產(chǎn)生了必然的權(quán)衡。然而,機(jī)器學(xué)習(xí)的情況有所不同。差分隱私實(shí)際上與機(jī)器學(xué)習(xí)的目標(biāo)完全一致。例如,記住一個(gè)特定的訓(xùn)練點(diǎn),如 Jane Smith 的病歷,在學(xué)習(xí)過程中對(duì)隱私的侵害,也是一種過擬合的形式,并且損害了與 Jane 的相同病歷的患者的模型的泛化能力。此外,差分隱私意味著某種形式的穩(wěn)定性(但事實(shí)并非如此)。
這個(gè)觀察結(jié)果使我們?cè)谧罱恼撐闹型晟屏?PATE 聚合機(jī)制的設(shè)計(jì)。這種新機(jī)制——Confident Aggregator——是有選擇性的:「teacher」只回答「student」提出的一些問題。當(dāng)「teacher」提問時(shí),我們首先檢查「teacher」之間的共識(shí)是否足夠高。如果獲「teacher」中投票最多的類標(biāo)簽的票數(shù)大于閾值,我們接受「student」的查詢。如果不是,我們拒絕它。閾值本身是隨機(jī)的,以便在選擇過程中提供隱私。一旦選擇了一個(gè)查詢,我們就會(huì)繼續(xù)使用原始的噪聲聚合機(jī)制:我們?yōu)槊總€(gè)標(biāo)簽對(duì)應(yīng)的每個(gè)投票計(jì)數(shù)添加噪音,并返回票數(shù)最多的標(biāo)簽。這個(gè)過程如下所示(在一個(gè)任務(wù)中有 6 個(gè)類,以避免在二元情況下誤導(dǎo)人物的簡(jiǎn)化)。
實(shí)際上,這意味著我們的隱私預(yù)算現(xiàn)在花在兩件事上:選擇和回答查詢。但是,由于我們選擇回答的問題具有「teacher」之間高度一致的特點(diǎn),所以用于回答查詢的隱私預(yù)算非常少。換句話說,我們可以將 Confident Aggregator 作為一種機(jī)制,將原始機(jī)制中消耗大部分隱私預(yù)算的查詢過濾掉。因此,在「student」性能水平相同時(shí),Confident Aggregator 提供的隱私預(yù)算總額要小于最初的噪聲聚合機(jī)制。下圖將這種改進(jìn)可視化為由原始機(jī)制(GNMax)和完善機(jī)制(Confident GNMax)回答的(「student」)查詢數(shù)量的函數(shù),并使用數(shù)據(jù)相關(guān)的分析,我們采用 Moments Accountant 或 Renyi differential privacy 方法。
影響我們方法提供的隱私保證強(qiáng)度的兩個(gè)主要因素:
1、「teacher」之間的共識(shí):當(dāng)這個(gè)共識(shí)很強(qiáng)時(shí),意味著幾乎所有的「teacher」都做出了相同的標(biāo)簽預(yù)測(cè),減少了輸出相應(yīng)標(biāo)簽時(shí)所花費(fèi)的隱私預(yù)算。這直觀地說明所做的預(yù)測(cè)是所有「teacher」所學(xué)習(xí)的具有普遍性的情景,即使他們是在無交集的數(shù)據(jù)集上進(jìn)行訓(xùn)練的。
2、「student」的查詢的數(shù)量:每次在訓(xùn)練「student」時(shí)對(duì)「teacher」進(jìn)行標(biāo)簽查詢,「teacher」花費(fèi)在預(yù)測(cè)該標(biāo)簽上的預(yù)算將被添加到總隱私成本中。因此,用盡可能少的「teacher」 查詢來訓(xùn)練「student」會(huì)加強(qiáng)所提供的隱私保證。
這兩點(diǎn)都可以從純粹的機(jī)器學(xué)習(xí)的角度來解決。加強(qiáng)「teacher」共識(shí)度要求可以為每個(gè)「teacher」提供很少的數(shù)據(jù)。改善這些模型的個(gè)體準(zhǔn)確度和泛化能力很可能有助于增強(qiáng)模型共識(shí)度。與監(jiān)督學(xué)習(xí)下的「teacher」模型訓(xùn)練不同,減少「student」查詢的數(shù)量是一個(gè)半監(jiān)督學(xué)習(xí)問題。例如,MNIST 和 SVHN 的最先進(jìn)的隱私保護(hù)模型是用 PATE-G 進(jìn)行訓(xùn)練的,PATE-G 是使用生成式對(duì)抗網(wǎng)絡(luò)以半監(jiān)督方式訓(xùn)練「student」的框架變體?!竤tudent」可以使用相對(duì)較大的未標(biāo)記輸入,并且必須盡可能少地接受「teacher」的監(jiān)督。
為了推動(dòng)這方面的工作,PATE 框架是開源的(https://github.com/tensorflow/models/tree/master/research/differential_privacy/multiple_teachers),并作為 TensorFlow 模型庫(kù)的一部分提供。簡(jiǎn)單起見,代碼使用公開可用的圖像分類數(shù)據(jù)集,如 MNIST 和 SVHN。您可以復(fù)制它并在 UNIX 環(huán)境下適當(dāng)設(shè)置 PYTHONPATH 變量,如下所示:
PATE 的第一步是訓(xùn)練「teacher」模型。在這個(gè)演示中,我們使用了 MNIST 的數(shù)據(jù)集和一個(gè)大小為 250 的」teacher「集合(請(qǐng)參閱 PATE 的論文來討論為什么這是一個(gè)好的選擇)。
這里會(huì)保存250個(gè)「teacher」的檢測(cè)點(diǎn),現(xiàn)在我們可以下載這些模型并用聚合機(jī)制來進(jìn)行「student」的監(jiān)督訓(xùn)練。
python train_student.py --nb_teachers=250 --dataset=mnist --stdnt_share=1000 --lap_scale=20 --save_labels=True
這將使用來自測(cè)試集的前 1000 個(gè)輸入來訓(xùn)練「student」,測(cè)試集是由我們的 250 個(gè)「teacher」模型集并采用1/20的拉普拉斯噪聲聚合機(jī)制進(jìn)行標(biāo)注的。這還將保存一個(gè)文件/tmp/mnist_250_student_clean_votes_lap_20.npy,其中包含「teacher」預(yù)測(cè)的所有標(biāo)簽,我們用這些標(biāo)簽評(píng)估「teacher」的隱私程度。
要了解我們「student」模型保證的差分隱私范圍的值,我們需要運(yùn)行分析腳本,這將使用訓(xùn)練「student」時(shí)保存的有關(guān)「teacher」共識(shí)的信息來執(zhí)行隱私分析。這里,noise_eps參數(shù)應(yīng)該設(shè)置為2 / lap_scale。
python analysis.py --counts_file=/tmp/mnist_250_student_clean_votes_lap_20.npy --max_examples=1000 --delta=1e-5 --noise_eps=0.1 --input_is_counts
該設(shè)置重新生成了帶有原始噪聲聚合機(jī)制的 PATE 框架。有興趣了解我們論文中介紹的 Confident Agggregator mechanism(信任聚合機(jī)制)的讀者可以在 https://github.com/tensorflow/models/tree/master/research/differential_privacy/pate 找到相關(guān)的代碼。
更多PATE資源
最初發(fā)表在 ICLR 2017 的 PATE 論文 https://arxiv.org/abs/1610.05755 以及論文演講中文圖文
ICLR 2018 的 PATE 論文 https://arxiv.org/abs/1802.08908 將這種方法拓展到了有大量類別以及數(shù)據(jù)不平衡的情況
GitHub code repo for PATE
在機(jī)器學(xué)習(xí)中,隱私的存在可以被認(rèn)為是一個(gè)盟友而不是敵人。隨著技術(shù)的提高,差分隱私很可能成為一種有效的正規(guī)化方法,它可以產(chǎn)生更好的模型。在 PATE 的框架內(nèi),機(jī)器學(xué)習(xí)研究人員即使不是差分隱私保護(hù)領(lǐng)域的專家,也可以為改進(jìn)差分隱私保護(hù)做出重大貢獻(xiàn)。
via www.cleverhans.io,雷鋒網(wǎng) AI 科技評(píng)論編譯
相關(guān)文章:
ICLR-17最佳論文作者Nicolas Papernot現(xiàn)場(chǎng)演講:如何用PATE框架有效保護(hù)隱私訓(xùn)練數(shù)據(jù)?(附視頻)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。