0
作者 | 維克多
2021年12月17日,浙江大學(xué)求是講席教授、ACM Fellow、IEEE Fellow、浙江大學(xué)網(wǎng)絡(luò)空間安全學(xué)院院長、計算機科學(xué)與技術(shù)學(xué)院副院長任奎在CNCC 2021 “迎接數(shù)字化轉(zhuǎn)型的安全挑戰(zhàn)”論壇中做了《隱私計算:向?qū)嵱没~進》的報告。
在報告中,任奎圍繞數(shù)據(jù)脫敏、差分隱私、安全多方計算三個方向,討論了隱私計算的前沿進展,提出不同技術(shù)可以在數(shù)據(jù)全生命周期的不同階段發(fā)揮作用。
以下是演講全文,AI科技評論做了不改變原意的刪改和整理:
今天分享浙江大學(xué)網(wǎng)絡(luò)安全學(xué)院在隱私計算方面的思考和研究,題目是《隱私計算:向?qū)嵱没~進》。
目前,隨著大數(shù)據(jù)時代的到來,隱私數(shù)據(jù)泄露問題日益突出,例如國內(nèi)互聯(lián)網(wǎng)大企業(yè)由于嚴重違法違規(guī)收集使用個人信息被勒令下架整改,國外的擁有億級用戶的互聯(lián)網(wǎng)大企業(yè)的個人隱私數(shù)據(jù)被泄露。因此,無論在哪個國家、科技公司還是傳統(tǒng)行業(yè),都在面臨數(shù)據(jù)和隱私泄露問題。
在這種背景下,世界上各個國家對監(jiān)管與合規(guī)的要求都變得越來越嚴格。從中國角度,2012年第十一屆全國人民代表大會常務(wù)委員會就通過了《關(guān)于加強網(wǎng)絡(luò)信息保護的決定》;2016年通過《中華人民共和國網(wǎng)絡(luò)安全法》,這部代表性的法律也體現(xiàn)了中國對數(shù)據(jù)安全隱私的重視;尤其近兩年,國家部門也從各個角度頒布相關(guān)法律,形成了比較完善的法律體系。例如《數(shù)據(jù)安全法》《個人隱私保護法》等等,其具體抓手也越來越明確。
從世界范圍內(nèi)來看,歐盟在《通用數(shù)據(jù)保護條例》(GDPR)落地之后,開了很多大額罰單,這既體現(xiàn)了日益嚴重的數(shù)據(jù)隱私泄露問題,也體現(xiàn)了越來越嚴格的監(jiān)管合規(guī)要求,同時也給研究領(lǐng)域和產(chǎn)業(yè)領(lǐng)域帶來了很多機會。
Gartner 在2021年對數(shù)據(jù)隱私保護戰(zhàn)略做了預(yù)測:到2023年底,全球75%的人口的個人數(shù)據(jù)將受到現(xiàn)代隱私法規(guī)的保護;到2023年底之前,全球超過80%的公司將面臨至少一項以隱私為重點的數(shù)據(jù)保護法規(guī);到2024年,全球隱私驅(qū)動的數(shù)據(jù)保護和合規(guī)技術(shù)支出將突破150億美元。因此,挑戰(zhàn)和機遇并存,困難與希望并存。
日益嚴格的法律法規(guī),也提醒我們回顧一下廣義上隱私計算的涵蓋范圍與發(fā)展。廣義上的隱私計算指 “兩個或者多個參與方在不泄露各自數(shù)據(jù)的前提下,通過協(xié)作對數(shù)據(jù)進行聯(lián)合計算處理?!?/span>
其實,這里隱含“安全性”和“高效性”兩個關(guān)鍵詞。從1982年安全多方計算、1983年可信計算、1985年零知識證明、2006年差分隱私到2016年聯(lián)邦學(xué)習(xí),相關(guān)技術(shù)在不斷發(fā)展,都在圍繞安全與效率而做努力。
安全多方計算是密碼學(xué)研究的一個重要分支,通俗定義是:為解決一組互不信任的參與方之間在保護隱私信息以及沒有可信第三方的前提下協(xié)同計算問題而提出的密碼協(xié)議與理論框架。
狹義的安全多方計算主要包括以下兩種實現(xiàn)方式:
1. 針對布爾電路以姚氏混淆電路方式實現(xiàn)的兩方協(xié)議;
2. 針對布爾電路或者代數(shù)電路以秘密分享方式實現(xiàn)的兩方或者多方協(xié)議。
在廣義上,全同態(tài)加密、可信硬件以及聯(lián)邦學(xué)習(xí)都可以看做安全多方計算的技術(shù)框架。
在應(yīng)用程度上,安全多方計算可以分為通用安全多方計算,可以支持大多數(shù)計算任務(wù),實現(xiàn)常用基本計算算子協(xié)議,例如加、乘、比較、矩陣運算,將具體計算任務(wù)分解到基本算子;專用安全多方計算,以“高效實現(xiàn)專用實用計算任務(wù)”為目標(biāo),可以針對專用計算任務(wù)和應(yīng)用場景定制多方安全計算協(xié)議,常見的專用協(xié)議包括隱私保護求交集、隱匿查詢、零知識證明、聯(lián)合建模等等。
目前,業(yè)界針對安全多方計算開發(fā)出了各種產(chǎn)品,但如何進行比較?我認為可以通過安全假設(shè)、性能以及安全保障三個維度進行評測。例如在安全假設(shè)中,采用的是同步、異步、半同步中的哪種網(wǎng)絡(luò)假設(shè)?敵手模型采用的是半誠實、惡意還是隱匿作惡?
而在安全保障中,應(yīng)該考慮隱私性、正確性、公開可驗證性、健壯性以及公平性等六個角度。此外,在“前提”和“保障”之間,技術(shù)產(chǎn)品實現(xiàn)的性能如何?例如參與方數(shù)據(jù)是否平衡、參與節(jié)點算力是否對稱等等。
國家也開始積極的探索,例如信通院提出《隱私計算多方安全計算產(chǎn)品性能要求和測試方法》,通過基礎(chǔ)運算、聯(lián)合統(tǒng)計、盈利查詢、安全求交等等維度考慮產(chǎn)品性能。
目前在學(xué)術(shù)界,安全多方計算也在穩(wěn)步發(fā)展。在基于混淆電路的安全多方計算前沿協(xié)議層面,如上圖所示,針對參與方數(shù)量、門限、敵手模型以及入侵假設(shè),都研究了對應(yīng)的“方法”。
在基于秘密分享的安全多方計算前沿協(xié)議層面,已經(jīng)有大量的開源安全多方計算框架,如CrypTFlow、 PySyft、 Rosetta等支持機器學(xué)習(xí)的框架;MP-SPDZ、 SCALE- MAMBA等通用框架。前者對性能要求更高,后者認為安全是“第一要務(wù)”。
在零知識證明領(lǐng)域前沿協(xié)議層面的進展如上圖所示,在加速、計算量、證明大小等方面各有千秋。
在隱匿查詢前沿協(xié)議層面,目前最好的技術(shù)屬于微軟和谷歌。它們完成百萬級的查詢,大概只需要2秒~4秒。在安全求交前沿協(xié)議層面,考慮150Mbps帶寬的情況下,也能達到10秒~30秒的百萬級查詢。
在聯(lián)合建模層面,Sp’17和PETS’20雖然在性能的表現(xiàn)不是最好,但是在安全層面卻是最嚴謹?shù)模寄鼙WC只泄露最終模型,不泄露中間結(jié)果。
目前,浙江大學(xué)也在安全多方計算領(lǐng)域開展了一些工作。例如研究統(tǒng)一MPC隱私性度量標(biāo)準;研究統(tǒng)一安全假設(shè)的評分標(biāo)準與各維度的權(quán)重;研究統(tǒng)一安全保障的評分標(biāo)準與各維度的權(quán)重;研發(fā)安全多方計算靶場;完善安全多方計算性能測評標(biāo)準與平臺等等。
差分隱私和密碼學(xué)不太相關(guān),是較新的概念。其思想和工作原理大致可以理解為:在數(shù)據(jù)中加入噪音,使得統(tǒng)計學(xué)相關(guān)的查詢既能得到有效的數(shù)據(jù),又能保證安全。學(xué)術(shù)上的定義是:通過建模單個參與者對數(shù)據(jù)造成影響,實現(xiàn)對隱私保護(泄露)程度的量化。
目前,該方法可以分為兩種:全局差分隱私,可信的數(shù)據(jù)管理者收集數(shù)據(jù)并在數(shù)據(jù)集的統(tǒng)計結(jié)果上添加擾動;本地差分隱私,用戶在本地對數(shù)據(jù)添加擾動后,發(fā)送給非可信的數(shù)據(jù)管理者。
從計算角度看,差分隱私能在一定的程度上解決“密碼學(xué)手段開銷過大”的缺點。對比加密方法解決數(shù)據(jù)計算過程中的隱私泄露,而差分隱私方法解決計算結(jié)果的隱私泄露。目前,差分隱私的部署和使用大多為政府機構(gòu)與互聯(lián)網(wǎng)巨頭。
例如,2016年蘋果在WWDC大會上宣布使用基于CM- Sketch和阿達馬變換的本地化差分隱私技術(shù)來保護IOS、MAC用戶隱私。相比于布隆過濾器, Count- Min Sketch更適用于頻率統(tǒng)計任務(wù);阿達馬變換也能有效降低通信開銷。但有研究人員認為蘋果在實際應(yīng)用中設(shè)置的隱私預(yù)算參數(shù)超出了可接受的范圍,隱私保護能力不夠強。
微軟也有相應(yīng)的動作,并在2017年將差分隱私方案部署到了win 10系統(tǒng)中。此外微軟和哈佛大學(xué)合作推出了 OpenDP開源差分隱私平臺,希望降低中小開發(fā)者應(yīng)用差分隱私的門檻。
阿里巴巴也在 Datatrust隱私增強計算平臺中部署落地差分隱私保護的聯(lián)邦學(xué)習(xí)決策樹訓(xùn)練。
差分隱私之所以受到關(guān)注,主要是它有嚴謹?shù)睦碚撃P?,提供了可驗證的量化隱私保護機制;提供了傳統(tǒng)密碼學(xué)無法提供的隱私保護手段,具有更輕量級的計算負載,提高了隱私保護效率。
但也存在理論和應(yīng)用上的挑戰(zhàn)。例如在理論層面,數(shù)據(jù)可用性較差:差分隱私在查詢結(jié)果中加入隨機化,導(dǎo)致數(shù)據(jù)可用性下降;數(shù)據(jù)類型有限:缺乏針對復(fù)雜數(shù)據(jù)類型的有效差分隱私保護方法。
在應(yīng)用層面,差分隱私不適用于單一樣本的確切信息查詢;復(fù)雜應(yīng)用場景下差分隱私得到的結(jié)果誤差較大;并且,目前還缺乏測試算法(乃至自動測試算法)是否符合差分隱私的方法。
如今,學(xué)術(shù)界針對差分隱私的機制優(yōu)化有了一些進展。例如上圖所示的最優(yōu)機制設(shè)計、機制后處理、最優(yōu)機制搜尋等工作。
相應(yīng)地,Shuffle機制、Subsample機制的提出增添了差分隱私放大機制的研究。
針對應(yīng)用難題,學(xué)界也提出了差分隱私正確性測試方法,包括多輪采樣與概率論技巧相結(jié)合的方法、程序分析的方法等等。
數(shù)據(jù)脫敏( Data Masking)是根據(jù)制定的脫敏規(guī)則,針對敏感信息進行數(shù)據(jù)變形或形成遮蔽,降低數(shù)據(jù)的敏感級別,擴大數(shù)據(jù)可共享和被使用的范圍,達到保護隱私數(shù)據(jù)安全的目的。
根據(jù)是否脫離生產(chǎn)環(huán)境,數(shù)據(jù)脫敏可以分為動態(tài)數(shù)據(jù)脫敏和靜態(tài)數(shù)據(jù)脫敏。前者對敏感數(shù)據(jù)的查詢和調(diào)用結(jié)果進行實時脫敏。在訪問敏感數(shù)據(jù)的同時實時進行脫敏處理,可以為不同角色、不同權(quán)限、不同數(shù)據(jù)類型執(zhí)行不同的脫敏方案,從而確保可用而安全。
后者(靜態(tài)數(shù)據(jù)脫敏)是指數(shù)據(jù)脫敏后分發(fā)至測試、開發(fā)、數(shù)據(jù)分析等場景。是數(shù)據(jù)的“搬移并仿真替換”。將數(shù)據(jù)脫敏處理后,下發(fā)給下游環(huán)節(jié)取用和讀寫。脫敏后數(shù)據(jù)與生產(chǎn)環(huán)境相隔離,滿足業(yè)務(wù)需求的同時保障生產(chǎn)數(shù)據(jù)庫的安全。
如上圖所示,數(shù)據(jù)脫敏有很多方式。例如數(shù)據(jù)一致性脫敏、遮蔽脫敏、保持數(shù)據(jù)格式脫敏、泛化脫敏、保持數(shù)據(jù)特征脫敏等等。
作為數(shù)據(jù)安全防護工作的重要一環(huán),數(shù)據(jù)脫敏技術(shù)和產(chǎn)品已作為常規(guī)手段,而敏感信息依賴于實際業(yè)務(wù)場景和安全維度,識別和梳理具體業(yè)務(wù)場景的敏感字段迫在眉睫。同時,目前市場上的數(shù)據(jù)脫敏供給商可分為信息安全服務(wù)服務(wù)商、自研自用企業(yè)以及通用數(shù)據(jù)脫敏工具開發(fā)商三類。但在全球范圍內(nèi)尚未形成脫敏的具體標(biāo)準。
目前,浙江大學(xué)與阿里巴巴合作開發(fā)了DMS數(shù)據(jù)管理系統(tǒng),包含了40萬個實例、400萬數(shù)據(jù)庫、10億張表,能夠?qū)崿F(xiàn)根據(jù)敏感數(shù)據(jù)自動分級分類、異常訪問風(fēng)險識別等等功能。
數(shù)據(jù)脫敏的應(yīng)用非常廣泛,但也存在一些難點。例如如何確定數(shù)據(jù)脫敏的目標(biāo)字段?當(dāng)前選擇脫敏數(shù)據(jù)目標(biāo)字段主要依賴于人工標(biāo)記,在準確性、安全性和高效性上仍有較大缺陷 。
如何保證數(shù)據(jù)脫敏過程的安全性? 當(dāng)前主流算法的脫敏過程仍不完善,有泄露和被取擊的風(fēng)險。
如何評判數(shù)據(jù)脫敏結(jié)果的脫敏程度?目前市場上有許多種類的脫敏工具和算法技術(shù),但是沒有一種統(tǒng)一的標(biāo)準來量化和衡量脫敏結(jié)果的好壞。
總結(jié)一下,數(shù)據(jù)市場依托隱私計算打破數(shù)據(jù)孤島非常重要。從數(shù)據(jù)脫敏、數(shù)據(jù)溯源到數(shù)據(jù)融合,再到數(shù)據(jù)確權(quán)、數(shù)據(jù)定價,隱私計算已經(jīng)發(fā)展出了非常有潛力的技術(shù),它在未來數(shù)據(jù)要素化資產(chǎn)市場配置過程中也會起到底座作用。
綜上所述,隨著數(shù)據(jù)安全監(jiān)管與合規(guī)要求的日益嚴格,隱私計算技術(shù)所面臨的機遇與挑戰(zhàn)、困難與希望并存,是未來迎接數(shù)字化轉(zhuǎn)型的重要安全問題之一。
2021-12-18
2021-12-23
2021-12-17
雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。