丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給宋一民
發(fā)送

0

AI基礎(chǔ)設(shè)施革命:數(shù)據(jù)隱私保護(hù)和價(jià)值挖掘的實(shí)踐思考

本文作者: 宋一民 2020-01-07 15:34
導(dǎo)語:數(shù)據(jù)隱私的保護(hù)貫穿數(shù)據(jù)流通過程,是一種動(dòng)態(tài)的數(shù)據(jù)安全。

AI基礎(chǔ)設(shè)施革命:數(shù)據(jù)隱私保護(hù)和價(jià)值挖掘的實(shí)踐思考

圖片來源:阿里云正版圖片

雷鋒網(wǎng)按:本文來自數(shù)牘科技創(chuàng)始人宋一民(Ethan),數(shù)牘科技基于數(shù)據(jù)科學(xué)與工程、密碼學(xué)(多方安全計(jì)算、差分隱私 etc.)、聯(lián)邦學(xué)習(xí)等技術(shù)體系,幫助企業(yè)間進(jìn)行安全隱私的數(shù)據(jù)協(xié)作。Ethan在成立數(shù)牘科技之前,曾就職于 Facebook Ads,作為tech lead從零到一的主導(dǎo)了Facebook Ads 與多個(gè)五百強(qiáng)公司的基于隱私保護(hù)的數(shù)據(jù)協(xié)作項(xiàng)目,后又任職于數(shù)據(jù)隱私組主導(dǎo)了多個(gè)數(shù)據(jù)隱私安全的工作。Ethan認(rèn)為,數(shù)據(jù)隱私的保護(hù)貫穿數(shù)據(jù)流通過程,是一種動(dòng)態(tài)的數(shù)據(jù)安全;數(shù)據(jù)隱私保護(hù)與價(jià)值挖掘并不矛盾,數(shù)據(jù)隱私保護(hù)的落地長(zhǎng)久來看會(huì)推動(dòng)新的數(shù)據(jù)使用范式誕生,而規(guī)范數(shù)據(jù)使用可以促進(jìn)數(shù)據(jù)流通更順暢,在匯聚更多數(shù)據(jù)的基礎(chǔ)上迎來價(jià)值挖掘的下一個(gè)爆發(fā)點(diǎn),帶動(dòng)AI的基礎(chǔ)設(shè)施革命。但隱私計(jì)算行業(yè)目前仍處于早期階段,Ethan在這里分享了他對(duì)數(shù)據(jù)使用的思考,以及平衡隱私保護(hù)和價(jià)值挖掘常見的技術(shù)實(shí)踐。

以下是分享內(nèi)容的簡(jiǎn)要提綱:

數(shù)據(jù)流動(dòng)的合理性和必然性

流動(dòng)鏈條中的數(shù)據(jù)歸類

數(shù)據(jù)隱私和價(jià)值挖掘的平衡:給予數(shù)據(jù)擁有方控制力

數(shù)據(jù)擁有者的控制力如何賦予?

數(shù)據(jù)控制力管理的技術(shù)實(shí)踐

數(shù)據(jù)的流動(dòng)性

一個(gè)數(shù)據(jù)從生成開始的整個(gè)生命周期中,可能會(huì)在多個(gè)機(jī)構(gòu)或節(jié)點(diǎn)間流轉(zhuǎn),在節(jié)點(diǎn)間進(jìn)行流轉(zhuǎn)的過程使得數(shù)據(jù)形成了一個(gè)網(wǎng)絡(luò),就像許多企業(yè)內(nèi)部存在數(shù)據(jù)流動(dòng)的data pipeline,在更宏觀的層面也存在類似的data flow。

在客觀現(xiàn)實(shí)中,數(shù)據(jù)流動(dòng)存在它的合理性和必然性。一方面,對(duì)于任何一個(gè)個(gè)體,他的數(shù)據(jù)會(huì)在不同的場(chǎng)景中產(chǎn)生和被采集。比如使用打車軟件會(huì)產(chǎn)生位置移動(dòng)的信息,住酒店會(huì)產(chǎn)生住宿信息,在淘寶買東西會(huì)產(chǎn)生購物信息等,很難想象會(huì)有一個(gè)實(shí)體掌握關(guān)于這個(gè)個(gè)體的全部數(shù)據(jù);另一方面,挖掘數(shù)據(jù)的過程也存在專業(yè)性的問題,在不同場(chǎng)景中根據(jù)不同需求,挖掘可能很難完全由同一個(gè)實(shí)體來完成。因此往往為了充分的挖掘數(shù)據(jù)價(jià)值,需要盡可能的將多個(gè)數(shù)據(jù)產(chǎn)生的源頭,經(jīng)過多個(gè)節(jié)點(diǎn)進(jìn)行匯聚,加工處理和使用。

從產(chǎn)業(yè)的角度來看,我們常形容互聯(lián)網(wǎng)和AI的關(guān)系是“連接產(chǎn)生數(shù)據(jù),數(shù)據(jù)產(chǎn)生智能”,在連接和智能決策的過程,其實(shí)也是數(shù)據(jù)流動(dòng)匯集、價(jià)值挖掘的過程。更豐富的數(shù)據(jù)維度和更好的數(shù)據(jù)覆蓋對(duì)于模型的質(zhì)量也是至關(guān)重要的。數(shù)據(jù)作為AI的原料,其流動(dòng)性也是讓AI更好發(fā)揮價(jià)值的基石。

流動(dòng)中的數(shù)據(jù)

數(shù)據(jù)的流動(dòng)性具有合理性和必要性,而流動(dòng)過程中的數(shù)據(jù)在實(shí)踐中通常是被如何被歸類和定位的?

數(shù)據(jù)在經(jīng)過不同節(jié)點(diǎn)的過程中,會(huì)在不同的上下文環(huán)境中被提及:比如數(shù)據(jù)的收集,存儲(chǔ),使用,以及對(duì)應(yīng)的前述行為的轉(zhuǎn)讓。收集主要對(duì)應(yīng)原始數(shù)據(jù)的采集或者形成結(jié)構(gòu)化數(shù)據(jù)的過程,比如將用戶操作 App 的動(dòng)作形成日志傳回服務(wù)器端,或者比如將用戶產(chǎn)生的評(píng)論進(jìn)行匯總。存儲(chǔ)和使用一般都是按字面意思對(duì)數(shù)據(jù)進(jìn)行保存或者處理。為了進(jìn)行數(shù)據(jù)的聚合或者借助外來力量對(duì)數(shù)據(jù)進(jìn)行挖掘,可能會(huì)涉及將這些數(shù)據(jù)的存儲(chǔ)或者使用權(quán)轉(zhuǎn)讓給其它方的過程。另外考慮到這些和個(gè)人數(shù)據(jù)相關(guān)的不同上下文,普通用戶在簽數(shù)據(jù)授權(quán)的時(shí)候也可以額外關(guān)注一下授權(quán)協(xié)議是否清晰的定義了這些不同的范疇,比如某 App 本身,對(duì)什么數(shù)據(jù)、進(jìn)行不超過多長(zhǎng)時(shí)間的存儲(chǔ),并且這個(gè)存儲(chǔ)權(quán)不會(huì)轉(zhuǎn)讓給除某 App 本身的其它實(shí)體。

一般收集或采集到數(shù)據(jù)的一方被稱為第一方數(shù)據(jù),第一方數(shù)據(jù)為了更好的用數(shù)據(jù)服務(wù)使用者,往往會(huì)在授權(quán)中要求更多的權(quán)限。比如在數(shù)據(jù)使用權(quán)里可能會(huì)要求通過數(shù)據(jù)對(duì)個(gè)人用戶的信息流進(jìn)行更好的匹配,這里面可能就包含了使用原始數(shù)據(jù)(如用戶對(duì)哪些帖子進(jìn)行了點(diǎn)贊)所進(jìn)行的優(yōu)化,也可能包含了將一個(gè)用戶的信息用于另一個(gè)或一些用戶。之前提到,完全由一個(gè)實(shí)體從頭到尾閉環(huán)能完成的事情非常有限,因此這里面會(huì)涉及到將用戶的一些信息(可能是原始信息,可能是聚合或者泛化信息)轉(zhuǎn)讓給其它實(shí)體協(xié)助完成的情況。這些從第一方數(shù)據(jù)所得數(shù)據(jù)的實(shí)體被稱為第二方數(shù)據(jù)。

受限于數(shù)據(jù)本身商業(yè)價(jià)值或相應(yīng)法律或PR風(fēng)險(xiǎn)的考慮,在這個(gè)數(shù)據(jù)轉(zhuǎn)移的過程中第一方會(huì)希望盡量控制減少數(shù)據(jù)本身的泄露。一般通過協(xié)議的角度可能是規(guī)定數(shù)據(jù)使用的范疇,規(guī)定數(shù)據(jù)可以被存儲(chǔ)的時(shí)間等。通過技術(shù)的角度可能是去除個(gè)人識(shí)別標(biāo)識(shí),做一些預(yù)處理比如泛化(將給定的位置從一個(gè)具體的位置變成處于某一個(gè)圓的范圍內(nèi))等,后面會(huì)對(duì)這些方法做一個(gè)簡(jiǎn)單的描述。除第二方數(shù)據(jù)以外,還會(huì)存在一些根據(jù)某些特定目的而將大量原始數(shù)據(jù)進(jìn)行匯聚的實(shí)體,目的可能是比如進(jìn)行某些統(tǒng)計(jì)分析的研究(比如所有人的存貸比,比如所有人的年齡分布等),也可能是某些特定研究(比如某類藥的安全使用范圍)等,這樣的實(shí)體可以被稱為第三方數(shù)據(jù)。

除了這三方的數(shù)據(jù)以外,還存在公開數(shù)據(jù)這個(gè)范疇。公開數(shù)據(jù)的定義很難做到清晰,不過一般認(rèn)為是任何一方可以通過爬蟲直接從互聯(lián)網(wǎng)獲得的數(shù)據(jù)(沒有經(jīng)過數(shù)據(jù)擁有者的直接授權(quán))。但在現(xiàn)實(shí)情況中,判斷公開數(shù)據(jù)的流通是否有風(fēng)險(xiǎn)往往也和公開數(shù)據(jù)被獲取的一方對(duì)于這種獲取行為如何看待相關(guān)。注意這里所指的公開數(shù)據(jù)被獲取方并不一定是數(shù)據(jù)的擁有者,因此也會(huì)出現(xiàn)在談及數(shù)據(jù)的收集,存儲(chǔ),使用之外的另一個(gè)上下文:公開。即第一第二或者第三方實(shí)體是否獲得了公開該數(shù)據(jù)的授權(quán)。

價(jià)值挖掘 V.S. 隱私保護(hù) — 數(shù)據(jù)擁有者的控制力

數(shù)據(jù)自由流動(dòng)中的價(jià)值挖掘能讓AI更好地發(fā)揮價(jià)值,但同時(shí),數(shù)據(jù)流動(dòng)過程中不經(jīng)節(jié)制的應(yīng)用,也會(huì)帶來數(shù)據(jù)隱私侵犯的隱患。最近多個(gè)金融大數(shù)據(jù)公司遭到立案調(diào)查,從數(shù)據(jù)源的角度來看,其中一個(gè)重要原因就是該類公司的爬蟲對(duì)觸達(dá)的數(shù)據(jù)未經(jīng)授權(quán)進(jìn)行存儲(chǔ)或超出了約定的使用范圍。舉例來說,如果有一個(gè) App 聲稱幫助用戶進(jìn)行多個(gè)金融賬戶進(jìn)行管理并綜合呈現(xiàn)個(gè)人現(xiàn)金流等信息,為了幫助 App 呈現(xiàn)這些信息,用戶就需要提供這些金融賬戶的訪問權(quán)限。但如果在這個(gè)過程中 App 對(duì)個(gè)人銀行賬戶內(nèi)的所有信息都進(jìn)行了抓取和存儲(chǔ),并將這些信息提煉出來的標(biāo)簽出售給第三方或利用標(biāo)簽開展新的業(yè)務(wù)。由于這些過程未對(duì)用戶進(jìn)行告知并獲得許可,都是一種對(duì)數(shù)據(jù)使用權(quán)的濫用。

從當(dāng)下的工程實(shí)踐來看,解決挖掘和隱私的兩難,可能目前最好的解決方法是給數(shù)據(jù)擁有方一個(gè)控制力,包括對(duì)數(shù)據(jù)收集的授權(quán)和收集后保存和使用的控制。國際上普遍進(jìn)行的實(shí)踐或者規(guī)范(如GDPR)都傾向于對(duì)個(gè)人擁有的數(shù)據(jù)及其數(shù)據(jù)的各種上下文環(huán)境進(jìn)行準(zhǔn)確的授權(quán)。比如GDPR中就會(huì)要求第一方數(shù)據(jù)要明確“自己采集到了哪些數(shù)據(jù)”,當(dāng)用戶有了這個(gè)明目之后,應(yīng)當(dāng)有權(quán)來選擇“保留哪些刪除哪些”;在此基礎(chǔ)之上,還比如會(huì)要求對(duì)數(shù)據(jù)處理方法作出明確問詢和授權(quán),“比如通過采集到的用戶點(diǎn)贊的帖子的內(nèi)容和類型來學(xué)習(xí)用戶的興趣愛好”;這些興趣愛好作為標(biāo)簽,雖然不是原始數(shù)據(jù),仍然需要用戶進(jìn)行逐一的明確授權(quán)。

當(dāng)我們通過給予數(shù)據(jù)擁有方控制力的方式去平衡數(shù)據(jù)價(jià)值挖掘和隱私保護(hù),在實(shí)踐中又會(huì)出現(xiàn)一個(gè)新的挑戰(zhàn) — 如何在不侵犯?jìng)€(gè)人隱私的前提下,獲得個(gè)人的授權(quán)。舉個(gè)例子,比如在獲得興趣愛好標(biāo)簽授權(quán)的時(shí)候不太可能有用戶可以預(yù)先對(duì)近乎無限多的興趣愛好進(jìn)行一一授權(quán),一般的過程也是首先由數(shù)據(jù)挖掘方獲得了某個(gè)標(biāo)簽,再針對(duì)這個(gè)標(biāo)簽進(jìn)行問詢。我們?cè)谶^去的工作實(shí)踐中見過的最好的處理方法是首先對(duì)多達(dá)三到六百萬常用的興趣愛好做知識(shí)圖,將這些興趣愛好的包含關(guān)系或者關(guān)聯(lián)性整理出來;之后再對(duì)各類興趣愛好通過找到包含關(guān)系中處于包含當(dāng)前愛好的比較泛化的那類愛好進(jìn)行問詢這樣點(diǎn)到為止的方式來完成。即便做到這樣,雖然消耗了巨大的資源并且有很高的門檻,也很難說做到了完美,因此也就不難理解多數(shù)公司在應(yīng)對(duì)GDPR或者相關(guān)合規(guī)的問題上面臨著巨大的挑戰(zhàn)這個(gè)事實(shí)。

數(shù)據(jù)擁有者的控制力如何賦予?

數(shù)據(jù)擁有者控制力的核心意義在于讓每個(gè)擁有者在挖掘和保護(hù)之間選擇自己的平衡點(diǎn)。為了給擁有者控制力,第一步要討論的是誰是數(shù)據(jù)的擁有者這個(gè)問題。一般對(duì)于個(gè)人數(shù)據(jù)來說,無論是個(gè)人的身份識(shí)別信息或者生物統(tǒng)計(jì)信息這樣對(duì)個(gè)人進(jìn)行描述的數(shù)據(jù),還是用戶的行為信息(比如訪問了哪些app,在app里面做了哪些事情)或者由這些行為信息所得到的新的標(biāo)簽這樣的用戶生成數(shù)據(jù),都會(huì)認(rèn)為擁有者是這個(gè)人本身。尤其對(duì)于產(chǎn)生的標(biāo)簽數(shù)據(jù)來說,有些情況下認(rèn)為由于標(biāo)簽是比如數(shù)據(jù)采集方進(jìn)行學(xué)習(xí)而得來的因此擁有者是采集方這個(gè)想法也不應(yīng)該是被廣泛認(rèn)同的。

圍繞擁有方是產(chǎn)生數(shù)據(jù)的個(gè)體這條線去思考,在整個(gè)數(shù)據(jù)生命周期鏈條里面就存在對(duì)第一方數(shù)據(jù)的控制、第二三方的控制等不同的問題。對(duì)于第一方來說,由于是數(shù)據(jù)的采集者,涉及的方面也是最多的。Facebook在2018年的F8上宣布一個(gè)針對(duì)給用戶控制力的功能叫Clear History,里面描述的愿景基本理解為可以允許用戶在采集,存儲(chǔ)和使用三個(gè)方面給予控制力。首先用戶會(huì)看到Facebook從哪些合作方渠道獲得了用戶的什么樣的數(shù)據(jù)(采集可見),之后允許用戶決定是否可以在廣告投放中進(jìn)行使用(使用控制),再次允許用戶對(duì)這些數(shù)據(jù)進(jìn)行立即刪除的操作(存儲(chǔ)控制)。

這個(gè)功能聽上去簡(jiǎn)單,但實(shí)際上對(duì)于一個(gè)正在運(yùn)轉(zhuǎn)的機(jī)構(gòu)來說,要涉及到鑒別所有的數(shù)據(jù)來源、在復(fù)雜的數(shù)據(jù)流里面識(shí)別各類數(shù)據(jù)、以及對(duì)某個(gè)數(shù)據(jù)的所有存儲(chǔ)位置進(jìn)行控制這幾方面能力。對(duì)于小機(jī)構(gòu)來說資源和投入產(chǎn)出比肯定是不夠的,對(duì)于大機(jī)構(gòu)來說由于內(nèi)部數(shù)據(jù)流太過復(fù)雜,為了實(shí)現(xiàn)它往往會(huì)需要做整個(gè)系統(tǒng)的重新設(shè)計(jì)和實(shí)現(xiàn),代價(jià)也不言而喻。

舉例來說,為了實(shí)現(xiàn)Clear History:首先為了在幾萬PB的數(shù)據(jù)倉庫中甚至更大的冷存儲(chǔ)中找到所需要控制的數(shù)據(jù),就需要做整個(gè)數(shù)據(jù)集的語義識(shí)別(很多時(shí)候由于表單的schema并不統(tǒng)一,所以直接使用metadata很難準(zhǔn)確的判斷數(shù)據(jù)類型),這個(gè)過程類似給數(shù)據(jù)打標(biāo)簽。為了可以覆蓋更多的存儲(chǔ)點(diǎn),會(huì)需要根據(jù)已經(jīng)得到的數(shù)據(jù)標(biāo)簽對(duì)數(shù)據(jù)流進(jìn)行端到端的識(shí)別。

當(dāng)所有的存儲(chǔ)點(diǎn)識(shí)別完成后,為了實(shí)現(xiàn)功能中的實(shí)時(shí)刪除,還需要在重新定義數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上配合一個(gè)高吞吐量的中心管理系統(tǒng)。這個(gè)過程協(xié)調(diào)了許多內(nèi)部部門,消耗了大量的資源,耗時(shí)一年以上。不難看出,在企業(yè)間的數(shù)據(jù)流通中也存在潛在的類似挑戰(zhàn)。

除第一方數(shù)據(jù)以外,在授權(quán)第二方的過程中,可能大體會(huì)分為兩種情況:第一種授權(quán)的目的可能是協(xié)助數(shù)據(jù)挖掘,第二種授權(quán)的目的可能是協(xié)助數(shù)據(jù)變現(xiàn)。在第一種情況下一般會(huì)只授權(quán)使用,不授權(quán)再次轉(zhuǎn)讓,并且對(duì)存儲(chǔ)進(jìn)行嚴(yán)格的控制(控制在使用所需的存儲(chǔ)范圍內(nèi))。比如說,對(duì)消費(fèi)行為進(jìn)行建模的第二方數(shù)據(jù),往往會(huì)存在過去兩周和過去兩個(gè)月這樣兩種時(shí)點(diǎn),超過兩個(gè)月的消費(fèi)行為一般價(jià)值也微乎其微。那么在授權(quán)存儲(chǔ)的時(shí)候一般會(huì)限定存儲(chǔ)時(shí)間不能超過2個(gè)月(外加一個(gè)比如24小時(shí)的灰色周期)。在數(shù)據(jù)使用的授權(quán)上,一般如果對(duì)數(shù)據(jù)挖掘的目標(biāo)及使用場(chǎng)景進(jìn)行嚴(yán)格的限定,一方面可以保護(hù)授權(quán)方在競(jìng)爭(zhēng)法層面的權(quán)益,另一方面也可以間接保護(hù)數(shù)據(jù)擁有方的個(gè)人隱私。從保護(hù)個(gè)人隱私的角度來講,假設(shè)授權(quán)的目的是計(jì)算某些用戶的還款風(fēng)險(xiǎn)從而幫助授權(quán)方?jīng)Q定是否放貸的場(chǎng)景,如果不限定挖掘的目的只能限于該合作方之間的征信目的,則可能會(huì)被第二方使用同樣的數(shù)據(jù)用于與其它合作方的營銷場(chǎng)景中作為對(duì)于個(gè)人現(xiàn)金流的判斷的一個(gè)因素。

對(duì)于第二種(數(shù)據(jù)變現(xiàn))的情況,會(huì)有比如通過特定的場(chǎng)景或產(chǎn)品進(jìn)行變現(xiàn)以及通過售賣標(biāo)簽進(jìn)行變現(xiàn)不同的類型。這里不對(duì)各種數(shù)據(jù)變現(xiàn)的方式進(jìn)行展開,但想強(qiáng)調(diào)一點(diǎn)的是在變現(xiàn)的過程中需要關(guān)注的是原始數(shù)據(jù)在第二方或其它地方的沉淀情況。因?yàn)殡m然一般授權(quán)方會(huì)通過限制原始數(shù)據(jù)的轉(zhuǎn)讓(從而保護(hù)個(gè)人隱私),但仍然會(huì)允許加工過的數(shù)據(jù)進(jìn)行流通或通過某個(gè)場(chǎng)景達(dá)成目標(biāo)。無論是哪種方式輸出的結(jié)果,都難以完全地避免數(shù)據(jù)的信息被沉淀,大量的沉淀會(huì)間接的導(dǎo)致原始數(shù)據(jù)被轉(zhuǎn)讓。舉一個(gè)數(shù)據(jù)泛化中沉淀結(jié)果的極端例子來說,假設(shè)我們?cè)试S對(duì)某一個(gè)人的常見活動(dòng)區(qū)域輸出某個(gè)較大的半徑圓范圍,多個(gè)這樣的半徑圓就可以逐步縮小對(duì)這個(gè)人活動(dòng)區(qū)域的判定。

公開數(shù)據(jù)和前述的最大區(qū)別是,由于已經(jīng)公開,只要是獲得了數(shù)據(jù)擁有者對(duì)于公開的授權(quán),那么之后不會(huì)再對(duì)公開數(shù)據(jù)的采集者進(jìn)行一一授權(quán)。采集者獲取公開數(shù)據(jù)的途徑一般也都是通過爬蟲這樣的主動(dòng)收集的形式,具有一定的收集和清理/整理成本。這里面一個(gè)有意思的地方在于,有一些數(shù)據(jù)并不是嚴(yán)格意義上的被公開數(shù)據(jù),或者說只希望在某個(gè)特定范圍內(nèi)被公開。舉例來說社區(qū)的運(yùn)營者可能只希望社區(qū)的用戶生成內(nèi)容(UGC)在社區(qū)內(nèi)進(jìn)行公開,而不希望流傳到互聯(lián)網(wǎng)上。典型的這類意愿的表述形式有類似于Robots exclusion standard,主要用于向爬蟲聲明網(wǎng)站中哪些內(nèi)容不能被讀取。除此之外公開數(shù)據(jù)還有可能僅僅是可以被讀取而不能希望被存儲(chǔ)的,舉例來說比如社交網(wǎng)站中的朋友清單。朋友清單被存儲(chǔ)和對(duì)比之后就可以得到諸如”哪些朋友取消了對(duì)我的關(guān)注“這樣的信息,這里面也存在可能侵害了別人的個(gè)人隱私的問題。一般為了防范這樣的越界爬取行為,公司可能會(huì)有針對(duì)性的組織自己的反扒竊(anti-scraping)系統(tǒng),在協(xié)議范疇之外對(duì)數(shù)據(jù)的控制力賦予提供保障。

綜上所述我們可以看到,賦予數(shù)據(jù)的控制力長(zhǎng)久以來都面臨許多挑戰(zhàn)。且除了第一方數(shù)據(jù)外,沿著數(shù)據(jù)鏈條向下走,這種挑戰(zhàn)會(huì)逐漸增加。這種現(xiàn)象很大程度上源于數(shù)據(jù)作為一種抽象存在,不同于普通物品的可以被復(fù)制,而被復(fù)制的數(shù)據(jù)的控制力將會(huì)被重新的定義和賦予。因此在數(shù)據(jù)流通的過程中將數(shù)據(jù)的各種屬性分開管理和授權(quán),盡量減少數(shù)據(jù)復(fù)制的出現(xiàn),可以很大程度上降低在整個(gè)鏈條上管理控制力的成本。需要研究的不是如何把數(shù)據(jù)的鏈條切段,而是如何在鏈條的各個(gè)環(huán)節(jié)上更好的完成數(shù)據(jù)控制力的精細(xì)化管理。

新的產(chǎn)業(yè)機(jī)會(huì) — 數(shù)據(jù)流通鏈條中控制力管理的技術(shù)實(shí)踐

前面提到,解決數(shù)據(jù)流通鏈條中賦予數(shù)據(jù)控制力的問題,主要的方式是針對(duì)不同類型的數(shù)據(jù)采取不同的方式,從宏觀上減少數(shù)據(jù)使用就要復(fù)制的情況出現(xiàn)。那么,在具體實(shí)踐里,針對(duì)個(gè)人數(shù)據(jù)的隱私保護(hù),又有哪些宏觀分類要素與技術(shù)手段呢?

宏觀來看,數(shù)據(jù)可以分為個(gè)人識(shí)別信息(PII)和用戶特征值兩類。PII是指像可以在很高精度上在公開環(huán)境下定位一個(gè)人的數(shù)據(jù),比如像美國的SSN,國內(nèi)的身份證號(hào),郵件地址,甚至有可能是電話號(hào)碼。用戶特征值基本可以理解為除了PII以外其它的圍繞個(gè)人行為特征或個(gè)人特性(如生物統(tǒng)計(jì)學(xué)數(shù)據(jù),人口統(tǒng)計(jì)學(xué)數(shù)據(jù)等)的數(shù)據(jù)了。用戶特征值往往是數(shù)據(jù)挖掘產(chǎn)生價(jià)值的對(duì)象,而PII則是扮演著將多個(gè)特征值統(tǒng)一在一起的角色,由PII形成的圖是數(shù)據(jù)鏈條上公司間進(jìn)行數(shù)據(jù)融合的橋梁。

可以看出,對(duì)PII的控制是數(shù)據(jù)鏈條中形成控制的關(guān)鍵,沒有PII的兩個(gè)數(shù)據(jù)集是很難整合在一起使用的。針對(duì)PII的控制一般被稱為De-identification,目前主要有比如脫敏(Data Masking),匿名(Anonymization)和k-匿名(k-anonymization)由弱到強(qiáng)三種比較常見的方式。脫敏

基本是將比如身份證的一部分隱去,從而在可以接近識(shí)別的前提下盡量保護(hù)數(shù)據(jù)的隱私,類似于對(duì)一般數(shù)據(jù)處理中的泛化技術(shù)。拋開脫敏過程中的信息丟失不談,這種方法顯然是缺乏足夠的安全性的。因?yàn)橹灰鎯?chǔ)和沉淀這樣的masked data,就可以最終反推出原始數(shù)據(jù)的內(nèi)容來,因此脫敏的方法在隱私要求比較高的環(huán)境中已經(jīng)不再使用了。匿名指修改或者移除個(gè)人身份信息,隱藏?cái)?shù)據(jù)和個(gè)人的對(duì)應(yīng)關(guān)系。一般的數(shù)據(jù)源會(huì)自己生成并管理這種對(duì)應(yīng)關(guān)系,由于個(gè)人身份信息的完全隱藏,安全性也會(huì)遠(yuǎn)高于直接對(duì)原始PII進(jìn)行脫敏。同時(shí)的對(duì)于使用PII來關(guān)聯(lián)數(shù)據(jù)集的這一屬性,也可以靠修改內(nèi)部的對(duì)應(yīng)關(guān)系來組織使用匿名數(shù)據(jù)在外部進(jìn)行數(shù)據(jù)集關(guān)聯(lián)的操作。k-匿名在匿名的基礎(chǔ)之上提出了個(gè)人識(shí)別不僅限于PII,任何數(shù)據(jù)形成的集合都能在一定程度上識(shí)別出一個(gè)人來,k在這里指的是用這個(gè)數(shù)據(jù)集進(jìn)行識(shí)別時(shí)可以將識(shí)別的人群縮小為數(shù)量為k的集合。k-匿名是目前通用標(biāo)準(zhǔn)中較高的一類,其中k的值越高,隱私保護(hù)的效果越好,在Google和Facebook的內(nèi)部數(shù)據(jù)管理中都有大量的使用。

用戶特征值數(shù)據(jù)主要在價(jià)值挖掘中被體現(xiàn),使用的方法宏觀上可以分為使用原始數(shù)據(jù)和使用統(tǒng)計(jì)數(shù)據(jù)兩類。比如某人在某時(shí)某地進(jìn)行了某次購物可以被認(rèn)為是原始數(shù)據(jù),那么某人在過去的一天里進(jìn)行了3次購物可以被認(rèn)為是統(tǒng)計(jì)數(shù)據(jù)。在很多情況下避免原始數(shù)據(jù)的直接使用是不太影響價(jià)值挖掘的同時(shí)可以更好的保護(hù)原始數(shù)據(jù)的。類似的,在鏈條中傳遞用戶特征數(shù)據(jù)時(shí)所使用的控制方法也比較多,常見的就有泛化(比如給定一個(gè)范圍而不是具體的數(shù)值),統(tǒng)計(jì)(如前所述),加密(比如同態(tài)加密),差分隱私(比如給定的數(shù)值是原始數(shù)值的基礎(chǔ)上增加一個(gè)噪音),合成(比如將原始數(shù)據(jù)轉(zhuǎn)化為代表所需知識(shí)的模型或者由模型生成不同于原始數(shù)據(jù)的新數(shù)據(jù))等等。

涉及多方數(shù)據(jù)的安全運(yùn)算環(huán)境的方式可以從多種角度來劃分。比如從是否存在可信的第三方(或者對(duì)于該第三方的信任成本有多大)來談,使用比如GC或者OT來實(shí)現(xiàn)的MPC可以實(shí)現(xiàn)完全沒有可信第三方的環(huán)境,而基于某些同態(tài)加密設(shè)計(jì)或者可信硬件的環(huán)境一般是強(qiáng)依賴于對(duì)于第三方的可信度的,而可信硬件環(huán)境還存在信任硬件產(chǎn)品供應(yīng)方這一個(gè)額外的信任成本。除了上述的兩類(MPC和可信硬件)之外,也存在許多其它方式在聯(lián)合運(yùn)算中保護(hù)原始數(shù)據(jù)的方法,其中就有比如合成數(shù)據(jù)(比如通過將原始數(shù)據(jù)轉(zhuǎn)換為模型),比如差分隱私(巧妙的選擇在原始數(shù)據(jù)上面增加噪聲從而在保護(hù)原始數(shù)據(jù)敏感性的前提下不會(huì)過多的干涉運(yùn)算本身),還有比如傳統(tǒng)的泛化(只傳輸包含原始數(shù)據(jù)的一個(gè)范圍)等多種方式。在實(shí)際應(yīng)用之中,一般會(huì)考慮數(shù)據(jù)的泄露危害程度(比如PII數(shù)據(jù)的泄露會(huì)造成連鎖的數(shù)據(jù)泄露反應(yīng)),數(shù)據(jù)是否容易被沉淀(比如高時(shí)效性的數(shù)據(jù)相對(duì)不那么容易被沉淀)等在達(dá)到安全級(jí)別的前提下,盡可能的保持信息完整性(合成,差分和泛化都會(huì)在不同程度上損失原始信息)的同時(shí)提升整體系統(tǒng)的運(yùn)行效率。

在介紹工程實(shí)踐的技術(shù)類型的同時(shí),我們也希望澄清在實(shí)踐中遇到的兩個(gè)比較常見的認(rèn)知誤區(qū):數(shù)據(jù)隱私解決方案,不等同于單一的密碼學(xué)或技術(shù)點(diǎn)創(chuàng)新,是一個(gè)結(jié)合了數(shù)據(jù)科學(xué)、密碼學(xué)、聯(lián)邦學(xué)習(xí)、云計(jì)算的綜合工程,通常是技術(shù)組合的形式;其次,對(duì)于數(shù)據(jù)隱私比較受關(guān)注的MPC(多方安全計(jì)算),最近幾年,MPC在數(shù)學(xué)原理上并沒有特別大的根本性變化,更多是工程方面的突破與進(jìn)展。

數(shù)據(jù)的流動(dòng)性具有其必然性和合理性,也是AI在產(chǎn)業(yè)中更好發(fā)揮智能的基礎(chǔ),但數(shù)據(jù)價(jià)值挖掘帶來便利的同時(shí),也面臨著隱私侵犯的隱患。從當(dāng)下實(shí)踐來看,通過給予數(shù)據(jù)擁有方控制力的方式是平衡數(shù)據(jù)價(jià)值挖掘和隱私保護(hù)最有效的方式;而流動(dòng)中的數(shù)據(jù)鏈條復(fù)雜,通常需要在數(shù)據(jù)流通的過程中將數(shù)據(jù)的各種屬性分開管理和授權(quán),盡量減少數(shù)據(jù)復(fù)制的出現(xiàn),從而降低在整個(gè)鏈條上管理控制力的成本。數(shù)據(jù)流動(dòng)過程中的隱私保護(hù),是動(dòng)態(tài)的、過程中的數(shù)據(jù)安全與隱私,對(duì)應(yīng)的技術(shù)實(shí)踐也將帶來新的產(chǎn)業(yè)和創(chuàng)新機(jī)會(huì)。對(duì)于這個(gè)新興的產(chǎn)業(yè),早期我們所選擇的方案也要迎合市場(chǎng)的階段進(jìn)行漸進(jìn)式推廣,比如數(shù)牘科技的解決方案中就設(shè)計(jì)了數(shù)據(jù)流控制,數(shù)據(jù)擁有方可以控制數(shù)據(jù)流向?yàn)閱蜗蚧螂p向,在現(xiàn)實(shí)環(huán)境中靈活應(yīng)用。數(shù)據(jù)隱私規(guī)范和價(jià)值挖掘是雙向作用、螺旋上升的過程,只有規(guī)范數(shù)據(jù)使用才可以在匯聚更多數(shù)據(jù)的基礎(chǔ)上迎來價(jià)值挖掘的下一個(gè)爆發(fā)點(diǎn)。我們很期待未來十年,在隱私規(guī)范的推動(dòng)下創(chuàng)造出新的數(shù)據(jù)使用范式,推動(dòng)AI的數(shù)據(jù)基礎(chǔ)設(shè)施革命,并能投入其中貢獻(xiàn)一點(diǎn)自己的力量。

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說