丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給百度安全
發(fā)送

0

大數(shù)據(jù)時代,用戶的隱私如何守護

本文作者: 百度安全 2017-09-07 16:24
導語:本文介紹了學術(shù)界和工業(yè)界對于用戶隱私保護的努力成果。

雷鋒網(wǎng)按:本文介紹了學術(shù)界和工業(yè)界對于用戶隱私保護的努力成果,其中主要講到了k-anonymity(k-匿名化),l-diversity(l-多樣化),t-closeness 和 ε-differential privacy(差分隱私),并對它們的優(yōu)缺點進行了分析。

數(shù)據(jù) v.s. 隱私

在大數(shù)據(jù)的時代,數(shù)據(jù)成為了科學研究的基石。我們在享受著推薦算法、語音識別、圖像識別、無人車駕駛等智能的技術(shù)帶來的便利的同時,數(shù)據(jù)在背后擔任著驅(qū)動算法不斷優(yōu)化迭代的角色。在科學研究、產(chǎn)品開發(fā)、數(shù)據(jù)公開的過程中,算法需要收集、使用用戶數(shù)據(jù),在這過程中數(shù)據(jù)就不可避免的暴露在外。歷史上就有很多公開的數(shù)據(jù)暴露了用戶隱私的案例。

美國在線(AOL)是一家美國互聯(lián)網(wǎng)服務公司,也是美國最大的互聯(lián)網(wǎng)提供商之一。在 2006 年8月,為了學術(shù)研究,AOL 公開了匿名的搜索記錄,其中包括 65 萬個用戶的數(shù)據(jù),總共 20M 條查詢記錄。在這些數(shù)據(jù)中,用戶的姓名被替換成了一個個匿名的 ID,但是紐約時報通過這些搜索紀錄,找到了 ID 匿名為4417749的用戶在真實世界中對應的人。ID 4417749 的搜索記錄里有關(guān)于“60歲的老年人”的問題、“Lilburn地方的風景”、還有“Arnold” 的搜索字樣。通過上面幾條數(shù)據(jù),紐約時報發(fā)現(xiàn) Lilburn 只有14個人姓Arnold,最后經(jīng)過直接聯(lián)系這14個人確認 ID 4417749 是一位62歲名字叫 Thelma Arnold的老奶奶。最后 AOL 緊急撤下數(shù)據(jù),發(fā)表聲明致歉,但是已經(jīng)太晚了。因為隱私泄露事件,AOL遭到了起訴,最終賠償受影響用戶總額高達五百萬美元。

同樣是 2006年,美國最大的影視公司之一 Netflix,舉辦了一個預測算法的比賽(Netflix Prize),比賽要求在公開數(shù)據(jù)上推測用戶的電影評分 。Netflix 把數(shù)據(jù)中唯一識別用戶的信息抹去,認為這樣就能保證用戶的隱私。但是在 2007 年來自The University of Texas at Austin 的兩位研究人員表示通過關(guān)聯(lián) Netflix 公開的數(shù)據(jù)和 IMDb(互聯(lián)網(wǎng)電影數(shù)據(jù)庫)網(wǎng)站上公開的紀錄就能夠識別出匿名后用戶的身份。三年后,在2010年,Netflix 最后因為隱私原因宣布停止這項比賽,并因此受到高額罰款,賠償金額總計九百萬美元。

近幾年各大公司均持續(xù)關(guān)注用戶的隱私安全。例如蘋果 在2016 年 6 月份的WWDC 大會上就提出了一項名為Differential Privacy 的差分隱私技術(shù)。蘋果聲稱他能通過數(shù)據(jù)計算出用戶群體的行為模式,但是卻無法獲得每個用戶個體的數(shù)據(jù)。那么差分隱私技術(shù)又是怎么做的呢?

在大數(shù)據(jù)時代,如何才能保證我們的隱私呢?要回答這個問題,我們首先要知道什么是隱私。

什么是隱私?

我們經(jīng)常談論到隱私泄漏、隱私保護,那么什么是隱私呢?舉個例子,居住在海淀區(qū)五道口的小明經(jīng)常在網(wǎng)上購買電子產(chǎn)品,那小明的姓名、購買偏好和居住地址算不算是隱私呢?如果某購物網(wǎng)站統(tǒng)計了用戶的購物偏好并公開部分數(shù)據(jù),公開的數(shù)據(jù)中顯示北京海淀區(qū)五道口的用戶更愛買電子產(chǎn)品,那么小明的隱私是否被泄漏了呢?要弄清楚隱私保護,我們先要討論一下究竟什么是隱私。

對于隱私這個詞,科學研究上普遍接受的定義是“單個用戶的某一些屬性”,只要符合這一定義都可以被看做是隱私。我們在提“隱私”的時候,更加強調(diào)的是“單個用戶”。那么,一群用戶的某一些屬性,可以認為不是隱私。我們拿剛才的例子來看,針對小明這個單個用戶,“購買偏好”和“居住地址”就是隱私。如果公開的數(shù)據(jù)說住在五道口的小明愛買電子產(chǎn)品,那么這顯然就是隱私泄漏了。但是如果數(shù)據(jù)中只包含一個區(qū)域的人的購買偏好,就沒有泄露用戶隱私。如果進一步講,大家都知道小明住在海淀區(qū)五道口,那么是不是小明就愛買點此產(chǎn)品了呢?這種情況算不算事隱私泄漏呢?答案是不算,因為大家只是通過這個趨勢推測,數(shù)據(jù)并不顯示小明一定愛買電子產(chǎn)品。

所以,從隱私保護的角度來說,隱私是針對單個用戶的概念,公開群體用戶的信息不算是隱私泄漏,但是如果能從數(shù)據(jù)中能準確推測出個體的信息,那么就算是隱私泄漏。

隱私保護的方法

從信息時代開始,關(guān)于隱私保護的研究就開始了。隨著數(shù)據(jù)不斷地增長,人們對隱私越來越重視。我們在討論隱私保護的時候包括兩種情況。

第一種是公司為了學術(shù)研究和數(shù)據(jù)交流開放用戶數(shù)據(jù),學術(shù)機構(gòu)或者個人可以向數(shù)據(jù)庫發(fā)起查詢請求,公司返回對應的數(shù)據(jù)時需要保證用戶的隱私。

第二種情況是公司作為服務提供商,為了提高服務質(zhì)量,主動收集用戶的數(shù)據(jù),這些在客戶端上收集的數(shù)據(jù)也需要保證隱私性。學術(shù)界提出了多種保護隱私的方法和測量隱私是否泄露的工具,例如k-anonymity(k-匿名化)、l-diversity(l-多樣化)、t-closeness、 ε-differentialprivacy(差分隱私)、同態(tài)加密(homomorphic encryption)、零知識證明(zero-knowledge proof)等等。今天主要介紹k-anonymity(k-匿名化),l-diversity(l-多樣化),t-closeness 和 ε-differential privacy(差分隱私)。這些方法先從直觀的角度去衡量一個公開數(shù)據(jù)的隱私性,再到使用密碼學、統(tǒng)計學等工具保證數(shù)據(jù)的隱私性。

下面我們一一解讀這四種隱私保護的方法:

k-anonymity(k-匿名化)

k-anonymity 是在 1998 年由 Latanya Sweeney 和 Pierangela Samarati 提出的一種數(shù)據(jù)匿名化方法。

我們先看一下下面的這個表格:

大數(shù)據(jù)時代,用戶的隱私如何守護

我們把要表格中的公開屬性分為以下三類:

    -    Key attributes: 一般是個體的唯一標示,比如說姓名、地址、電話等等,這些內(nèi)容需要在公開數(shù)據(jù)的時候刪掉。

    -    Quasi-identifier: 類似郵編、年齡、生日、性別等不是唯一的,但是能幫助研究人員關(guān)聯(lián)相關(guān)數(shù)據(jù)的標示。

    -    Sensitive attributes: 敏感數(shù)據(jù),比如說購買偏好、薪水等等,這些數(shù)據(jù)是研究人員最關(guān)心的,所以一般都直接公開。

簡單來說,k-anonymity 的目的是保證公開的數(shù)據(jù)中包含的個人信息至少 k-1 條不能通過其他個人信息確定出來。也就是公開數(shù)據(jù)中的任意 quasi-identifier信息,相同的組合都需要出現(xiàn)至少 k 次。

舉個例子,假設一個公開的數(shù)據(jù)進行了 2-anonymity 保護。如果攻擊者想確認一個人(小明)的敏感信息(購買偏好),通過查詢他的年齡、郵編和性別,攻擊者會發(fā)現(xiàn)數(shù)據(jù)里至少有兩個人是有相同的年齡、郵編和性別。這樣攻擊者就沒辦法區(qū)分這兩條數(shù)據(jù)到底哪個是小明了,從而也就保證了小明的隱私不會被泄露。

下面這個表就是 2-anonymization 過的信息:

大數(shù)據(jù)時代,用戶的隱私如何守護

k-anonymity的方法主要有兩種,一種是刪除對應的數(shù)據(jù)列,用星號(*)代替。另外一種方法是用概括的方法使之無法區(qū)分,比如把年齡這個數(shù)字概括成一個年齡段。對于郵編這樣的數(shù)據(jù),如果刪除所有郵編,研究人員會失去很多有意義的信息,所以可以選擇刪除最后一位數(shù)字。

從這個表中,即使我們知道小明是男性、24歲、郵編是100083,卻仍然無法知道小明的購買偏好。而研究人員依然可以根據(jù)這些數(shù)據(jù)統(tǒng)計出一些有意義的結(jié)果,這樣既兼顧了個人的隱私,又能為研究提供有效的數(shù)據(jù)。

k-anonymity能保證以下三點:

1.    攻擊者無法知道某個人是否在公開的數(shù)據(jù)中

2.    給定一個人,攻擊者無法確認他是否有某項敏感屬性

3.    攻擊者無法確認某條數(shù)據(jù)對應的是哪個人(這條假設攻擊者除了 quasi-identifier 信息之外對其他數(shù)據(jù)一無所知,舉個例子,如果所有用戶的偏好都是購買電子產(chǎn)品,那么 k-anonymity 也無法保證隱私?jīng)]有泄露)

攻擊方法

未排序匹配攻擊 (unsorted matching attack) :當公開的數(shù)據(jù)記錄和原始記錄的順序一樣的時候,攻擊者可以猜出匿名化的記錄是屬于誰。例如如果攻擊者知道在數(shù)據(jù)中小明是排在小白前面,那么他就可以確認,小明的購買偏好是電子產(chǎn)品,小白是家用電器。解決方法也很簡單,在公開數(shù)據(jù)之前先打亂原始數(shù)據(jù)的順序就可以避免這類的攻擊。

補充數(shù)據(jù)攻擊 (complementary release attack) :假如公開的數(shù)據(jù)有多種類型,如果它們的 k-anonymity 方法不同,那么攻擊者可以通過關(guān)聯(lián)多種數(shù)據(jù)推測用戶信息。

除此之外,如果敏感屬性在同一類 quasi-identifiers 中缺乏多樣性,或者攻擊者有其它的背景知識,k-anonymity 也無法避免隱私泄露。

大數(shù)據(jù)時代,用戶的隱私如何守護

我們知道李雷的信息,表中有兩條對應的數(shù)據(jù),但是他們的購買偏好都是電子產(chǎn)品。因為這個敏感屬性缺乏多樣性,所以盡管是 2-anonimity 匿名化的數(shù)據(jù),我們依然能夠獲得李雷的敏感信息。

大數(shù)據(jù)時代,用戶的隱私如何守護

如果我們知道小紫的信息,并且知道她不喜歡購買護膚品,那么從表中,我們?nèi)钥梢源_認小紫的購買偏好是廚具。

l-diversity(l-多樣化)

通過上面的例子,我們引出了多樣化的概念。簡單來說,在公開的數(shù)據(jù)中,對于那些quasi-identifier 相同的數(shù)據(jù)中,敏感屬性必須具有多樣性,這樣才能保證用戶的隱私不能通過背景知識等方法推測出來。

l-diversity 保證了相同類型數(shù)據(jù)中至少有 l 種內(nèi)容不同的敏感屬性。

大數(shù)據(jù)時代,用戶的隱私如何守護

例如在上圖的例子中,有 10 條相同的類型的數(shù)據(jù),其中 8 條的購買偏好是電子產(chǎn)品,其他兩條分別是圖書和家用電器。那么在這個例子中,公開的數(shù)據(jù)就滿足 3-diversity 的屬性。

除了以上介紹的簡單 l-diversity 的定義,還有其他版本的 l-diversity,引入了其他統(tǒng)計方法。比如說:

  • 基于概率的l-diversity (probabilistic l-diversity): 在一個類型中出現(xiàn)頻率最高的值的概率不大于1/l。

  • 基于墑的l-diversity (entropy l-diversity): 在一個類型中敏感數(shù)據(jù)分布的墑至少是 log(l)。

  • 遞歸 (c,l)-diversity (recursive (c, l)-diversity): 簡單來說就是保證最經(jīng)常出現(xiàn)的值的出現(xiàn)頻率不要太高。

l-diversity 也有其局限性:

  • 敏感屬性的性質(zhì)決定即使保證了一定概率的 diversity 也很容易泄露隱私。例如,醫(yī)院公開的艾滋病數(shù)據(jù)中,敏感屬性是“艾滋病陽性”(出現(xiàn)概率是 1%)和“艾滋病陰性”(出現(xiàn)概率是 99%),這兩種值的敏感性不同,造成的結(jié)果也不同。

  • 有些情況下 l-diversity 是沒有意義的:比如說艾滋病數(shù)據(jù)的例子中僅含有兩種不同的值,保證2-diversity 也是沒有意義的。

  • l-diversity 很難達成:例如,我們想在 10000 條數(shù)據(jù)中保證 2-diversity,那么可能最多需要10000* 0.01 = 100 個相同的類型。這時可能通過之前介紹的 k-anonymity的方法很難達到。

  • 偏斜性攻擊 (Skewness Attack):假如我們要保證在同一類型的數(shù)據(jù)中出現(xiàn)“艾滋病陽性”和出現(xiàn)“艾滋病陰性”的概率是相同的,我們雖然保證了 diversity,但是我們泄露隱私的可能性會變大。因為l-diversity 并沒有考慮敏感屬性的總體的分布。

  •  l-diversity 沒有考慮敏感屬性的語義,比如說下面的例子,我們通過李雷的信息從公開數(shù)據(jù)中關(guān)聯(lián)到了兩條信息,通過這兩條信息我們能得出兩個結(jié)論。第一,李雷的工資相對較低;第二,李雷喜歡買電子電器相關(guān)的產(chǎn)品。

大數(shù)據(jù)時代,用戶的隱私如何守護

t-closeness

上面最后一個問題就引出了 t-closeness 的概念,t-closeness 是為了保證在相同的quasi-identifier類型組中,敏感信息的分布情況與整個數(shù)據(jù)的敏感信息分布情況接近(close),不超過閾值 t。

如果剛才的那個數(shù)據(jù)保證了 t-closeness 屬性,那么通過李雷的信息查詢出來的結(jié)果中,工資的分布就和整體的分布類似,進而很難推斷出李雷工資的高低。

最后,如果保證了 k-anonymity,l-diversity 和 t-closeness,隱私就不會泄露了么?答案并不是這樣,我們看下面的例子:

大數(shù)據(jù)時代,用戶的隱私如何守護

在這個例子中,我們保證了 2- anonymity , 2-diversity , t-closeness(分布近似),工資和購買偏好是敏感屬性。攻擊者通過李雷的個人信息找到了四條數(shù)據(jù),同時知道李雷有很多書,這樣就能很容易在四條數(shù)據(jù)中找到李雷的那一條,從而造成隱私泄露。可能有些讀者會有疑問,通過背景知識攻擊 k-anonymity 的前提是不是假設了解 quasi-identifier ?并不是這樣,針對敏感屬性的背景攻擊對 k-anonymity 也適用,所以無論經(jīng)過哪些屬性保證,隱私泄露還是很難避免。

差分隱私(differential privacy)

除了之前我們介紹的針對 k-anonymity, l-diversity,t-closeness 三種隱私保護方法的攻擊之外,還有一種叫做差分攻擊 ( differential attack )。舉個例子,購物公司發(fā)布了購物偏好的數(shù)據(jù),說我們有 100 個人的購物偏好數(shù)據(jù),其中有 10 個人偏愛購買汽車用品,其他 90 個偏愛購買電子產(chǎn)品。如果攻擊者知道其中 99 個人是偏愛汽車用品還是電子產(chǎn)品,就可以知道第 100 個人的購物偏好。這樣通過比較公開數(shù)據(jù)和既有的知識推測出個人隱私,就叫做差分攻擊。

在 2009 年,微軟研究院的Cynthia Dwork 提出差分隱私的概念,差分隱私就是為了防止差分攻擊,也就是說盡管攻擊者知道發(fā)布的 100 個人的個人以信息和其中 99 個人的信息,他也沒辦法通過比對這兩個信息獲得第 100 個人的信息。

簡單來說,差分隱私就是用一種方法使得查詢 100 個信息和查詢其中 99 個的信息得到的結(jié)果是相對一致的,那么攻擊者就無法通過比較(差分)數(shù)據(jù)的不同找出第100 個人的信息。這種方法就是加入隨機性,如果查詢 100 個記錄和 99 個記錄,輸出同樣的值的概率是一樣的,攻擊者就無法進行差分攻擊。進一步說,對于差別只有一條記錄的兩個數(shù)據(jù)集 D 和 D' (neighboring datasets),查詢他們獲得結(jié)果相同的概率非常接近。注意,這里并不能保證概率相同,如果一樣的話,數(shù)據(jù)就需要完全的隨機化,那樣公開數(shù)據(jù)也就沒有意義。所以,我們需要盡可能接近,保證在隱私和可用性之間找到一個平衡。

ε-差分隱私 (ε-differential privacy, ε-DP) 可以用下面的定義來表示:

大數(shù)據(jù)時代,用戶的隱私如何守護

其中 M 是在 D 上做任意查詢操作,對查詢后的結(jié)果加入一定的隨機性,也就是給數(shù)據(jù)加噪音,兩個 datasets加上同一隨機噪音之后查詢結(jié)果為 C 的概率比小于一個特定的數(shù) 。這樣就能保證用戶隱私泄露的概率有一個數(shù)學的上界,相比傳統(tǒng)的 k-anonymity,差分隱私使隱私保護的模型更加清晰。

我們用一個例子解釋差分隱私的定義:

大數(shù)據(jù)時代,用戶的隱私如何守護

上圖中 D1 和D2 是兩個neighboring datasets,他們只有一條記錄不一致,在攻擊者查詢“20-30歲之間有多少人偏好購買電子產(chǎn)品”的時候,對于這兩個數(shù)據(jù)庫得到的查詢結(jié)果是 100 的概率分別是 99% 和 98%,他們的比值小于某個數(shù)。如果對于任意的查詢,都能滿足這樣的條件,我們就可以說這種隨機方法是滿足ε-差分隱私的。因為 D1 和 D2 是可以互換的,所以更加嚴格的講,他們的比值也要大于 。

無論查詢是什么,兩個相鄰的數(shù)據(jù)庫返回的結(jié)果總是近似的。

要達到數(shù)據(jù)的差分隱私有四種方法:

  1. 輸出結(jié)果變換

  2. 輸入查詢變換

  3. 中間值變換

  4. 抽樣和聚合數(shù)據(jù)

本文接下來主要介紹輸出結(jié)果變換的方法,這種方法主要針對查詢結(jié)果是數(shù)值或者數(shù)值向量的情況,通過加入噪聲使輸出結(jié)果達到 ε-DP。

輸出結(jié)果變換:加入噪聲

在差分隱私中,防止隱私泄露的重要因素是在查詢結(jié)果中加噪音,對于數(shù)值的查詢結(jié)果,一種常見的方法就是對結(jié)果進行數(shù)值變換。要解釋如何加入噪音,我們先看一下下面的這個例子:

大數(shù)據(jù)時代,用戶的隱私如何守護

假如某公司公開了數(shù)據(jù),并且對外提供了查詢數(shù)據(jù)的接口 f(x),針對不同的查詢 x,服務器都會輸出一個查詢結(jié)果 f(x) + 噪聲,加入噪聲就是為了保證 ε-差分隱私。

那么如何選擇噪聲呢?

差分隱私方法中,作者巧妙的利用了拉普拉斯分布的特性,找到了合適的噪聲方法。針對數(shù)值或向量的查詢輸出,M(x) = f(x) + 噪聲。我們能得出以下結(jié)論:

大數(shù)據(jù)時代,用戶的隱私如何守護

其中 Lap 是拉普拉斯分布,GS 表示 global sensitivity:

大數(shù)據(jù)時代,用戶的隱私如何守護

詳細的證明可以參考差分隱私的相關(guān)文章。

我們有了這個結(jié)論,想要對某個查詢接口 f(x) 保證 ε-DP 的話,只需要在查詢結(jié)果上加入 Lap(GS/e) 的噪聲就可以了。

拉普拉斯分布和其概率密度函數(shù)如下:

大數(shù)據(jù)時代,用戶的隱私如何守護

(ε,δ)-differential privacy, (ε, δ)-DP

 ε-DP 是一種“嚴格”的隱私保護保證,當在數(shù)據(jù)庫中添加和刪除一條數(shù)據(jù)時候,保證所有查詢的輸出都類似。但是(ε, δ)-DP 在 ε-DP 的保證中允許了一定概率的錯誤發(fā)生,比如說,用戶在 (ε, δ)-DP 的保護下會有 δ 概率的隱私泄露。

大數(shù)據(jù)時代,用戶的隱私如何守護

基于這些的概念,差分隱私在機器學習算法中也能夠使用,常見的算法,比如說 PCA、logistic regression、SVM都有對應的差分隱私化算法。

差分隱私在數(shù)據(jù)的實用性和隱私性之間達到了平衡,使用者可以通過設定自己的“隱私預算”(privacy budget)來調(diào)整數(shù)據(jù)的實用性和隱私性。但是差分隱私也不是萬能的,其中加入噪聲的很多算法需要在大量的數(shù)據(jù)集上才實用。除此之外,什么才是“隱私預算”的合理設定也是一個問題。這些都是差分隱私面臨的問題和挑戰(zhàn)。并且由于差分隱私對于“背景知識”的要求過于強,所以需要在結(jié)果中加入大量隨機化,導致數(shù)據(jù)的可用性(utility)急劇下降。但是差分隱私作為一個非常優(yōu)雅的數(shù)學工具,是隱私保護的研究在未來的一個發(fā)展方向。差分隱私用嚴格的數(shù)學證明告訴人們一個匿名化的公開數(shù)據(jù)究竟能保護用戶多少的隱私。

k-匿名化與 ε-差分隱私的關(guān)系

我們前面分別單獨介紹了 k-匿名化和 ε-差分隱私,k-匿名化相對比較容易理解和實踐,差分隱私更像是從理論上證明了隱私保護的邊界。雖然方法的分析角度完全不同,但是它們之間卻有著緊密的聯(lián)系。普渡大學的Ninghui Li教授在 Provably PrivateData Anonymization: Or, k-Anonymity Meets Differential Privacy 文章中詳細分析了 k-匿名化和 ε-差分隱私之間的關(guān)系。文章證明了在使用 k-匿名化“得當”的情況下,可以滿足一定條件的 (ε, δ)-differentialprivacy。同時也提出了一種 k-anonymity 的變形:β-Sampling+ Data-independent _Generalization + k-Suppression (k, β)-SDGS ,通過變形后的 k-anonymity 就可以使之滿足差分隱私。通過使用差分隱私這種工具,我們就能精確的衡量前人提出的 k-anonymity,在理論研究上具有重要意義。

實際案例

在實際應用中使用差分隱私時需要考慮的問題還有很多,我們在介紹差分隱私的時候假設所有的查詢操作都由可信的數(shù)據(jù)庫處理,數(shù)據(jù)庫里存儲著用戶的原始數(shù)據(jù)。那么如果數(shù)據(jù)庫被攻擊了,包含用戶隱私的原始數(shù)據(jù)就泄露了。

如果不收集用戶的原始數(shù)據(jù),在客戶端上先做差分隱私,再上傳給服務器,這個問題就解決了。最近Google率先使用RAPPOR系統(tǒng)在 Chrome 瀏覽器上通過這種方法收集用戶的使用情況數(shù)據(jù)。RAPPOR 基于“隨機應答”(randomized response)的方法保護用戶的原始數(shù)據(jù)不被泄露,隨機應答的流程如下:

  1. 當用戶需要上報個人數(shù)據(jù)的時候,首先“拋硬幣”決定是否上報真實數(shù)據(jù)。如果是正面,則上報真實數(shù)據(jù)。如果不是,就上報一個隨機的數(shù)據(jù),再“拋一次硬幣”決定隨機數(shù)據(jù)的內(nèi)容。

  2. 服務器收到所有的數(shù)據(jù)后,因為知道“拋硬幣”是正面的概率,服務器就能夠判斷返回的數(shù)據(jù)是正確的概率。

這種“隨機應答”的方法在理論上也被證明是服從ε-差分隱私的。對于用戶來說,隱私數(shù)據(jù)在上報給服務器之前就已經(jīng)加了噪聲,從而具有一定保證。對于公司來說,也能收集到有效的數(shù)據(jù)。

RAPPOR 使用“隨機應答”的方法克服了之前只能回答簡單查詢語句的限制,現(xiàn)在可以上報包含字符串這類更加復雜的回答。RAPPOR 在上報字符串信息的時候首先使用“布隆過濾器”(bloom filter)算法把字符串哈希到一個數(shù)組中,然后再加入噪聲傳給服務器。布隆過濾器不需要存儲元素本身,并可以用于檢索一個元素是否在一個集合中。通過使用這種方法,就可以對字符串數(shù)據(jù)添加噪音,保護用戶的隱私。

蘋果在 2016 年的世界開發(fā)者大會(WWDC)上也宣布使用差分隱私的方法收集用戶數(shù)據(jù)。雖然蘋果沒有透露具體的細節(jié),我們從官方的描述中也可以推測出蘋果也使用了在客戶端上做匿名化再傳輸?shù)椒掌鞯姆椒ā?/p>

Differentialprivacy is a research topic in the areas of statistics and data analytics thatuses hashing, subsampling and noiseinjection to enable...crowdsourced learning while keeping the data ofindividual users completely private. Apple has been doing some super-importantwork in this area to enable differential privacy to be deployed at scale.

我們剛才介紹的 Google 和 Apple 的模型都是先在本地做差分隱私,然后再上報給服務器,我們把這種方法叫做本地模式(local mode)。這種差分隱私的做法在上報數(shù)據(jù)可以相互關(guān)聯(lián)的情況下還是存在隱私泄漏。Google的RAPPOR雖然解決了對同一個數(shù)據(jù)的多次上報的隱私泄露問題,但并沒有解決多個相關(guān)數(shù)據(jù)上報后產(chǎn)生的隱私泄露問題。對于這一問題,Apple也沒有給出詳細的解釋。

除了Google 和蘋果在內(nèi)部產(chǎn)品中使用差分隱私方法,哈佛大學公開了一個名為PSI (Ψ) 的項目,提供了一個便捷的差分隱私工具。使用者通過上傳數(shù)據(jù),調(diào)整差分隱私的參數(shù),就可以獲得滿足差分隱私的數(shù)據(jù)集。

總結(jié)

本文介紹了學術(shù)界和工業(yè)界對于用戶隱私保護的努力成果。我們首先介紹了 k-anonymity,即通過變換隱私數(shù)據(jù),保證相同特性的用戶在數(shù)據(jù)庫出現(xiàn)的次數(shù)至少是 k 次。然后,為了防止攻擊者通過隱私數(shù)據(jù)的背景知識推測用戶身份,提出使用 l-diversity,保證相同特征的用戶中,隱私數(shù)據(jù)相同的個數(shù)大于 l。除此之外,我們也討論了 t-closeness。最后我們詳細介紹了差分隱私的概念,以及實際應用中應如何使用差分隱私。

從最開始的 k-anonymity, l-diversity , t-closeness 到現(xiàn)在的 ε-差分隱私,都是為了既保證用戶的個人隱私,也能對實際應用和研究提供有價值的數(shù)據(jù)。在大數(shù)據(jù)的時代中,希望各公司在利用數(shù)據(jù)提供更好的服務的同時,能保護好用戶的個人隱私。這是法律的要求,也是安全行業(yè)的追求。我們相信隱私保護技術(shù)會越來越受到重視,并從學術(shù)理論迅速投入工業(yè)界實戰(zhàn)應用。

參考文章

-      https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf

-      https://www.cs.cmu.edu/~yuxiangw/docs/Differential%20Privacy.pdf

-      https://blog.cryptographyengineering.com/2016/06/15/what-is-differential-privacy/

-      https://www.chromium.org/developers/design-documents/rappor

-      http://static.googleusercontent.com/media/research.google.com/en/us/pubs/archive/42852.pdf

-      Provably Private Data Anonymization: Or,k-Anonymity Meets Differential Privacy

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說